发明授权
- 专利标题: 文本数据比较方法及装置
-
申请号: CN202210631816.9申请日: 2022-06-07
-
公开(公告)号: CN114722160B公开(公告)日: 2022-09-02
- 发明人: 张万鹏 , 张虎 , 谷学强 , 胡丽 , 项凤涛 , 王超 , 杨景照 , 张煜
- 申请人: 中国人民解放军国防科技大学
- 申请人地址: 湖南省长沙市开福区德雅路109号
- 专利权人: 中国人民解放军国防科技大学
- 当前专利权人: 中国人民解放军国防科技大学
- 当前专利权人地址: 湖南省长沙市开福区德雅路109号
- 代理机构: 长沙国科天河知识产权代理有限公司
- 代理商 彭小兰
- 主分类号: G06F16/33
- IPC分类号: G06F16/33 ; G06F16/36 ; G06F40/242 ; G06F40/289
摘要:
本申请涉及信息处理技术领域的一种文本数据比较方法及装置。所述方法包括获取两个数据字典表中的文本数据项集合,并对两个文本数据项集合进行分词处理,得到两个文本数据项集合中每一个元素的中文词语集合,计算两个文本数据项集合的元素之间的相似性度量,并通过预设相似比阈值对相似性度量进行预处理,得到相似度量矩阵,通过对字典表对比分析问题的抽象和建模,将两个文本数据项集合比对分析问题转化为一个二分图寻求最优匹配方案的问题,并利用KM算法对该问题进行求解。本方法实现了基于语义的字典表数据自动比对分析,有效的缓解了数据整编过程中依靠人工进行比对的工作压力,为数据对比自动化处理提供了一种新思路。
公开/授权文献
- CN114722160A 文本数据比较方法及装置 公开/授权日:2022-07-08