一种从非结构化文本数据中提取结构化数据的方法及系统
摘要:
一种从非结构化文本数据中提取结构化数据的方法及系统属于数据处理技术领域,尤其涉及一种从非结构化文本数据中提取结构化数据的方法及系统。本发明提供一种从非结构化文本数据中提取结构化数据的方法及系统。本发明包括以下步骤:1.在样本中标注要提取的信息在标注操作界面中建立要提取的字段,并在文本数据中标注字段对应的内容,标注完成系统会记录字段名称及其内容在文本中的起止位置。2.分词、标注词性。通过常用分词工具对步骤1中标注好的文本数据逐篇进行分词及词性标注,具体步骤包含:首先根据标注内容在文本中起止位置对文本进行分割,得到数个文本段,然后对这些文本段进行分词和词性标注。
0/0