发明授权
CN102314418B 一种基于上下文关联的中文相似性比较方法
失效 - 权利终止
- 专利标题: 一种基于上下文关联的中文相似性比较方法
- 专利标题(英): Method for comparing Chinese similarity based on context relation
-
申请号: CN201110303533.3申请日: 2011-10-09
-
公开(公告)号: CN102314418B公开(公告)日: 2013-07-24
- 发明人: 赵长海 , 晏海华 , 郎钰泽
- 申请人: 北京航空航天大学
- 申请人地址: 北京市海淀区学院路37号
- 专利权人: 北京航空航天大学
- 当前专利权人: 北京航空航天大学
- 当前专利权人地址: 北京市海淀区学院路37号
- 代理机构: 北京永创新实专利事务所
- 代理商 周长琪
- 主分类号: G06F17/27
- IPC分类号: G06F17/27
摘要:
本发明提出一种基于上下文关联的中文相似性比较方法,应用于中文相似性比较技术领域,该方法首先将要进行比较的两篇文本的文本流进行分词和索引,为每一个文本建立倒排表,然后对倒排表进行相似性检测,得到可疑相似片段,最后对可疑相似片段进行聚合,得到相似文本块,在相似文本块的生成过程中考虑到上下文的关联。本发明方法先发现较小可疑相似片段,再对可疑相似片段进行聚合,减少了空间向量模型中粒度大小与误判、漏判率之间的矛盾,实现对两篇文本的相似性比较。
公开/授权文献
- CN102314418A 一种基于上下文关联的中文相似性比较方法 公开/授权日:2012-01-11