一种面向政府领域新词自动发现的实现方法、分析模型及其系统
摘要:
本发明提供一种面向政府领域新词自动发现的实现方法、分析模型及其系统,所述方法包括:对网络信息去除杂数据后得到纯文本,通过HanLP分词器对纯文本进行分词获得带有词性的单词集合,对单词集合进行常用词、垃圾词的初步过滤,对过滤结果进行单词多元匹配形成组合词汇,根据组合规则判断词性,运用TF/IDF算法统计词频得到加权分数,根据分数进行筛选和专家鉴定形成最优规则,系统依据最优规则进行循环训练和全文模式匹配后输出目标结果得到分析模型。本技术将多元匹配规则、智能过滤、加权统计、规则判断和专家鉴定技术相融合,收录大量专业词典,借鉴语言学家研究成果,形成了最优的分析模型从而输出新的词汇,有效提高了新词发现效率和新词识别的准确性,同时可查询到具有更高语义专指度的复合词,提升了政府网站新词发现的专业度和准确性。
0/0