-
公开(公告)号:CN107908716A
公开(公告)日:2018-04-13
申请号:CN201711106044.2
申请日:2017-11-10
申请人: 国网山东省电力公司电力科学研究院 , 国家电网公司
CPC分类号: G06F17/3071 , G06F17/2775 , G06K9/6269
摘要: 本发明公开了一种基于词向量模型的95598工单文本挖掘方法和装置,获取95598工单文本,并对95598工单文本进行分词处理,得到电力工单语料库;采用Word2vec模型对电力工单语料库进行训练,得到词向量;将词向量输入Word2vec模型,构建电力工单词典,并调整电力工单语料库中分词;结合电力工单语料库,利用TF-IDF方法赋权得到段落向量;将段落向量输入SVM分类器进行训练,得到电力工单文本分类模型。本发明采用神经网络语言模型对工单文本进行训练,形成词向量,在词向量的基础上,作为其他模型的输入,实现进一步的文本挖掘分析,能够帮助客服人员了解客户诉求,提供更优质便捷的服务。