一种非结构化文本相似性判断的方法及系统

发明公开

CN112101001A 一种非结构化文本相似性判断的方法及系统审中-实审

请登陆查看更多内容

专利标题： 一种非结构化文本相似性判断的方法及系统
申请号： CN202010992851.4

申请日： 2020-09-21
公开(公告)号： CN112101001A

公开(公告)日： 2020-12-18
发明人: 胡博 , 李钊 , 李伟 , 雷振江 , 田小蕾 , 王丽霞 , 王大维 , 杨超 , 张智儒 , 王义贺 , 周小明 , 王磊 , 李广翱 , 庄莉 , 梁懿 , 陈新梅 , 曹国强
申请人： 国网辽宁省电力有限公司电力科学研究院 , 福建亿榕信息技术有限公司 , 南京南瑞信息通信科技有限公司 , 国家电网有限公司
申请人地址： 辽宁省沈阳市和平区四平街39-7号
专利权人： 国网辽宁省电力有限公司电力科学研究院,福建亿榕信息技术有限公司,南京南瑞信息通信科技有限公司,国家电网有限公司
当前专利权人： 国网辽宁省电力有限公司电力科学研究院,福建亿榕信息技术有限公司,南京南瑞信息通信科技有限公司,国家电网有限公司
当前专利权人地址： 辽宁省沈阳市和平区四平街39-7号
主分类号： G06F40/194
IPC分类号： G06F40/194 ; G06F40/30 ; G06F40/289 ; G06F16/33 ; G06F16/35 ; G06K9/62 ; G06N3/04 ; G06N3/08

摘要：

一种非结构化文本相似性判断的方法及系统属于数据处理技术领域，尤其涉及一种非结构化文本相似性判断的方法及系统。本发明提供一种非结构化文本相似性判断的方法及系统。本方案具体实施步骤如下：1.输入非结构化数据。该非结构化数据可以是来自于网络爬虫的网页或word文档等。2.文本抽取。从非结构化数据中提取文本信息。此步骤采用apache tika（apache组织开源文本抽取组件）进行文本内容的抽取，可兼容多种格式的文本内容抽取，如excel、pdf、xml、json、markdown等，该步骤最终输出抽取后的txt文件。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F40/00	处理自然语言数据（语音分析或综合，语音识别G10L）
G06F40/10	.文本处理（自然语言分析G06F 40/20;语义分析G06F 40/30;自然语言处理或翻译G06F 40/40）
G06F40/194	..计算文件之间的差异