发明公开
- 专利标题: 一种从非结构化文本数据中提取结构化数据的方法及系统
-
申请号: CN202010991878.1申请日: 2020-09-21
-
公开(公告)号: CN112101007A公开(公告)日: 2020-12-18
- 发明人: 胡博 , 李钊 , 李伟 , 王丽霞 , 王大维 , 雷振江 , 田小蕾 , 杨超 , 顾海林 , 胡楠 , 刘晓强 , 齐俊 , 高强 , 庄莉 , 梁懿 , 陈新梅 , 刘鹏宇 , 曹国强
- 申请人: 国网辽宁省电力有限公司电力科学研究院 , 福建亿榕信息技术有限公司 , 南京南瑞信息通信科技有限公司 , 国家电网有限公司
- 申请人地址: 辽宁省沈阳市和平区四平街39-7号
- 专利权人: 国网辽宁省电力有限公司电力科学研究院,福建亿榕信息技术有限公司,南京南瑞信息通信科技有限公司,国家电网有限公司
- 当前专利权人: 国网辽宁省电力有限公司电力科学研究院,福建亿榕信息技术有限公司,南京南瑞信息通信科技有限公司,国家电网有限公司
- 当前专利权人地址: 辽宁省沈阳市和平区四平街39-7号
- 主分类号: G06F40/216
- IPC分类号: G06F40/216 ; G06F40/284 ; G06F40/289
摘要:
一种从非结构化文本数据中提取结构化数据的方法及系统属于数据处理技术领域,尤其涉及一种从非结构化文本数据中提取结构化数据的方法及系统。本发明提供一种从非结构化文本数据中提取结构化数据的方法及系统。本发明包括以下步骤:1.在样本中标注要提取的信息在标注操作界面中建立要提取的字段,并在文本数据中标注字段对应的内容,标注完成系统会记录字段名称及其内容在文本中的起止位置。2.分词、标注词性。通过常用分词工具对步骤1中标注好的文本数据逐篇进行分词及词性标注,具体步骤包含:首先根据标注内容在文本中起止位置对文本进行分割,得到数个文本段,然后对这些文本段进行分词和词性标注。