一种从非结构化文本数据中提取结构化数据的方法及系统

发明公开

CN112101007A 一种从非结构化文本数据中提取结构化数据的方法及系统审中-实审

请登陆查看更多内容

专利标题： 一种从非结构化文本数据中提取结构化数据的方法及系统
申请号： CN202010991878.1

申请日： 2020-09-21
公开(公告)号： CN112101007A

公开(公告)日： 2020-12-18
发明人: 胡博 , 李钊 , 李伟 , 王丽霞 , 王大维 , 雷振江 , 田小蕾 , 杨超 , 顾海林 , 胡楠 , 刘晓强 , 齐俊 , 高强 , 庄莉 , 梁懿 , 陈新梅 , 刘鹏宇 , 曹国强
申请人： 国网辽宁省电力有限公司电力科学研究院 , 福建亿榕信息技术有限公司 , 南京南瑞信息通信科技有限公司 , 国家电网有限公司
申请人地址： 辽宁省沈阳市和平区四平街39-7号
专利权人： 国网辽宁省电力有限公司电力科学研究院,福建亿榕信息技术有限公司,南京南瑞信息通信科技有限公司,国家电网有限公司
当前专利权人： 国网辽宁省电力有限公司电力科学研究院,福建亿榕信息技术有限公司,南京南瑞信息通信科技有限公司,国家电网有限公司
当前专利权人地址： 辽宁省沈阳市和平区四平街39-7号
主分类号： G06F40/216
IPC分类号： G06F40/216 ; G06F40/284 ; G06F40/289

摘要：

一种从非结构化文本数据中提取结构化数据的方法及系统属于数据处理技术领域，尤其涉及一种从非结构化文本数据中提取结构化数据的方法及系统。本发明提供一种从非结构化文本数据中提取结构化数据的方法及系统。本发明包括以下步骤：1.在样本中标注要提取的信息在标注操作界面中建立要提取的字段，并在文本数据中标注字段对应的内容，标注完成系统会记录字段名称及其内容在文本中的起止位置。2.分词、标注词性。通过常用分词工具对步骤1中标注好的文本数据逐篇进行分词及词性标注，具体步骤包含：首先根据标注内容在文本中起止位置对文本进行分割，得到数个文本段，然后对这些文本段进行分词和词性标注。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F40/00	处理自然语言数据（语音分析或综合，语音识别G10L）
G06F40/20	.自然语言分析（自然语言的语义分析入G06F40/30）
G06F40/205	..解析
G06F40/216	...使用统计方法