(通訊員杜鑫)近日,我院唐曉波教授團(tuán)隊在Scientific Reports發(fā)表論文《Research on automatic labelling of imbalanced texts of customer complaints based on text enhancement and layer-by-layer semantic matching》。該文是國家自然科學(xué)基金項目《基于文本和web語義分析的智能服務(wù)研究》的研究成果之一。
論文以電力公司的客戶投訴文本為例,融合了BERT和Word2Vec方法,提出了一種基于BERT和Word2Vec的客戶投訴文本自動標(biāo)引模型。該模型在淺層級的文本標(biāo)引標(biāo)簽上使用BERT模型,利用文本增強(qiáng)改善了由于標(biāo)引標(biāo)簽過多客戶投訴文本樣本量不均衡的問題,并在深層級的文本標(biāo)引標(biāo)簽上使用Word2Vec模型。實(shí)驗結(jié)果表明,該文提出的自動標(biāo)引模型,可以有效對客戶投訴文本進(jìn)行自動標(biāo)引,并在召回率、F值等指標(biāo)上有了提高。

該文提出的基于BERT和Word2Vec的客戶投訴文本自動標(biāo)引模型通過文本增強(qiáng)后,在沒有改變語義的條件下,解決了一個類別下文本量過少的問題,改善了樣本量不均衡的情況,在淺層級文本標(biāo)引標(biāo)簽確定時使用BERT模型,而在深層級標(biāo)引標(biāo)簽的確定中使用Word2Vec模型,充分利用了客戶投訴文本標(biāo)引標(biāo)簽具有層級性的特點(diǎn)。該文提出的自動標(biāo)引模型一方面能夠通過高效處理客戶投訴文本,提高企業(yè)的服務(wù)質(zhì)量,另一方面使用自動標(biāo)引的方法處理客戶投訴文本,也減少了企業(yè)的人工成本,在企業(yè)管理層決策和業(yè)務(wù)層應(yīng)用上都具有重大意義,能提高企業(yè)效率。該文提出的模型在金融、醫(yī)療、互聯(lián)網(wǎng)等行業(yè)的大數(shù)據(jù)分析與利用方面具有重要應(yīng)用價值。
據(jù)了解,Scientific Reports是Nature Portfolio旗下一本開放獲取的同行評議期刊,在SCI的Multidisciplinary Sciences領(lǐng)域一區(qū)排名第17,是全球第6大被引用的期刊。
論文鏈接:https://www.nature.com/articles/s41598-021-91189-0