- 专利标题: 一种面向非结构化表格文档的实体与关系抽取方法
-
申请号: CN202010021995.5申请日: 2020-01-09
-
公开(公告)号: CN111274327A公开(公告)日: 2020-06-12
- 发明人: 张元鸣 , 李梦妮 , 高天宇 , 肖刚 , 程振波 , 陆佳炜
- 申请人: 浙江工业大学
- 申请人地址: 浙江省杭州市下城区朝晖六区潮王路18号
- 专利权人: 浙江工业大学
- 当前专利权人: 广州索明信息科技有限公司
- 当前专利权人地址: 510700 广东省广州市黄埔区科学大道50号1904房
- 代理机构: 杭州斯可睿专利事务所有限公司
- 代理商 王利强
- 主分类号: G06F16/28
- IPC分类号: G06F16/28 ; G06F16/36
摘要:
一种面向非结构化表格文档的实体与关系抽取方法,将非结构化表格文档划分为离散的单值表格和多值表格;采用表格位置特征和文本规则从单值表格中抽取出知识,并基于规则对其进行标注,得到实体、关系、属性和属性值,组织成三元组形式;利用表格位置和文本规则从多值表格中抽取出知识,对字符串进行语义分割,并基于规则对其进行标注,得到实体、关系、属性和属性值,组织成三元组形式。本发明给出的实体与关系抽取方法能够将非结构化表格文档的信息处理成结构化数据,并准确的抽取出其中的实体、关系、属性及属性值,形成三元组集合,为进一步构建知识图谱的工作奠定了良好的基础。
公开/授权文献
- CN111274327B 一种面向非结构化表格文档的实体与关系抽取方法 公开/授权日:2021-08-03