发明授权
- 专利标题: 文档实体及关系抽取方法、装置及存储介质
-
申请号: CN202310425886.3申请日: 2023-04-20
-
公开(公告)号: CN116152841B公开(公告)日: 2024-09-24
- 发明人: 殷飞 , 戴鹤森 , 刘成林
- 申请人: 中国科学院自动化研究所
- 申请人地址: 北京市海淀区中关村东路95号
- 专利权人: 中国科学院自动化研究所
- 当前专利权人: 中国科学院自动化研究所
- 当前专利权人地址: 北京市海淀区中关村东路95号
- 代理机构: 北京路浩知识产权代理有限公司
- 代理商 陈新生
- 主分类号: G06V30/413
- IPC分类号: G06V30/413 ; G06V30/414 ; G06V20/70 ; G06V30/19 ; G06V10/82 ; G06V30/18
摘要:
本申请提供一种文档实体及关系抽取方法、装置及存储介质,属于计算机视觉和自然语言处理技术领域,该方法包括:确定图结构的顶点的视觉特征和所述图结构的边的视觉特征;所述图结构以文档中的实体为顶点,以所述实体的外接框之间的连线为边;基于所述顶点的视觉特征和所述边的视觉特征确定文档实体信息;所述文档实体信息包括文档中的实体的布局关系、所述实体的类别信息和所述实体之间的语义关系。本申请实施例提供的文档实体及关系抽取方法、装置及存储介质,基于图结构中顶点的视觉特征和边的视觉特征进行顶点分类和边分类,获得文档实体的布局关系、实体类别和实体间的语义关系,使得视觉富文档实体信息的提取更加全面和准确。
公开/授权文献
- CN116152841A 文档实体及关系抽取方法、装置及存储介质 公开/授权日:2023-05-23