文本数据比较方法及装置
摘要:
本申请涉及信息处理技术领域的一种文本数据比较方法及装置。所述方法包括获取两个数据字典表中的文本数据项集合,并对两个文本数据项集合进行分词处理,得到两个文本数据项集合中每一个元素的中文词语集合,计算两个文本数据项集合的元素之间的相似性度量,并通过预设相似比阈值对相似性度量进行预处理,得到相似度量矩阵,通过对字典表对比分析问题的抽象和建模,将两个文本数据项集合比对分析问题转化为一个二分图寻求最优匹配方案的问题,并利用KM算法对该问题进行求解。本方法实现了基于语义的字典表数据自动比对分析,有效的缓解了数据整编过程中依靠人工进行比对的工作压力,为数据对比自动化处理提供了一种新思路。
公开/授权文献
0/0