一种面向政府领域新词自动发现的实现方法、分析模型及其系统

发明授权

CN111476025B 一种面向政府领域新词自动发现的实现方法、分析模型及其系统有权

请登陆查看更多内容

专利标题： 一种面向政府领域新词自动发现的实现方法、分析模型及其系统
申请号： CN202010133406.2

申请日： 2020-02-28
公开(公告)号： CN111476025B

公开(公告)日： 2021-01-08
发明人: 汪敏 , 严妍 , 刘鹏飞 , 尹娜
申请人： 开普云信息科技股份有限公司 , 北京开普云信息科技有限公司
申请人地址： 广东省东莞市石龙镇中山东东升路1号汇星商业中心5栋2单元1805室
专利权人： 开普云信息科技股份有限公司,北京开普云信息科技有限公司
当前专利权人： 开普云信息科技股份有限公司,北京开普云信息科技有限公司
当前专利权人地址： 广东省东莞市石龙镇中山东东升路1号汇星商业中心5栋2单元1805室
代理机构： 北京德崇智捷知识产权代理有限公司
代理商 王欣
主分类号： G06F40/284
IPC分类号： G06F40/284 ; G06F40/247 ; G06F16/951 ; G06Q50/26

摘要：

本发明提供一种面向政府领域新词自动发现的实现方法、分析模型及其系统，所述方法包括：对网络信息去除杂数据后得到纯文本，通过HanLP分词器对纯文本进行分词获得带有词性的单词集合，对单词集合进行常用词、垃圾词的初步过滤，对过滤结果进行单词多元匹配形成组合词汇，根据组合规则判断词性，运用TF/IDF算法统计词频得到加权分数，根据分数进行筛选和专家鉴定形成最优规则，系统依据最优规则进行循环训练和全文模式匹配后输出目标结果得到分析模型。本技术将多元匹配规则、智能过滤、加权统计、规则判断和专家鉴定技术相融合，收录大量专业词典，借鉴语言学家研究成果，形成了最优的分析模型从而输出新的词汇，有效提高了新词发现效率和新词识别的准确性，同时可查询到具有更高语义专指度的复合词，提升了政府网站新词发现的专业度和准确性。

公开/授权文献

CN111476025A 一种面向政府领域新词自动发现的实现方法、分析模型及其系统公开/授权日：2020-07-31

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F40/00	处理自然语言数据（语音分析或综合，语音识别G10L）
G06F40/20	.自然语言分析（自然语言的语义分析入G06F40/30）
G06F40/279	..文字实体的识别
G06F40/284	...词汇分析，例如标记或搭配词