- 专利标题: 一种面向政府领域新词自动发现的实现方法、分析模型及其系统
-
申请号: CN202010133406.2申请日: 2020-02-28
-
公开(公告)号: CN111476025B公开(公告)日: 2021-01-08
- 发明人: 汪敏 , 严妍 , 刘鹏飞 , 尹娜
- 申请人: 开普云信息科技股份有限公司 , 北京开普云信息科技有限公司
- 申请人地址: 广东省东莞市石龙镇中山东东升路1号汇星商业中心5栋2单元1805室
- 专利权人: 开普云信息科技股份有限公司,北京开普云信息科技有限公司
- 当前专利权人: 开普云信息科技股份有限公司,北京开普云信息科技有限公司
- 当前专利权人地址: 广东省东莞市石龙镇中山东东升路1号汇星商业中心5栋2单元1805室
- 代理机构: 北京德崇智捷知识产权代理有限公司
- 代理商 王欣
- 主分类号: G06F40/284
- IPC分类号: G06F40/284 ; G06F40/247 ; G06F16/951 ; G06Q50/26
摘要:
本发明提供一种面向政府领域新词自动发现的实现方法、分析模型及其系统,所述方法包括:对网络信息去除杂数据后得到纯文本,通过HanLP分词器对纯文本进行分词获得带有词性的单词集合,对单词集合进行常用词、垃圾词的初步过滤,对过滤结果进行单词多元匹配形成组合词汇,根据组合规则判断词性,运用TF/IDF算法统计词频得到加权分数,根据分数进行筛选和专家鉴定形成最优规则,系统依据最优规则进行循环训练和全文模式匹配后输出目标结果得到分析模型。本技术将多元匹配规则、智能过滤、加权统计、规则判断和专家鉴定技术相融合,收录大量专业词典,借鉴语言学家研究成果,形成了最优的分析模型从而输出新的词汇,有效提高了新词发现效率和新词识别的准确性,同时可查询到具有更高语义专指度的复合词,提升了政府网站新词发现的专业度和准确性。
公开/授权文献
- CN111476025A 一种面向政府领域新词自动发现的实现方法、分析模型及其系统 公开/授权日:2020-07-31