发明授权
- 专利标题: 基于知识图谱构建的信息抽取方法
-
申请号: CN202310389729.1申请日: 2023-04-13
-
公开(公告)号: CN116108146B公开(公告)日: 2023-06-27
- 发明人: 窦友众 , 谷明 , 魏斌 , 孙树田
- 申请人: 天津数域智通科技有限公司
- 申请人地址: 天津市滨海新区滨海高新区华苑产业区海泰西路18号北2-204工业孵化-5-415
- 专利权人: 天津数域智通科技有限公司
- 当前专利权人: 天津数域智通科技有限公司
- 当前专利权人地址: 天津市滨海新区滨海高新区华苑产业区海泰西路18号北2-204工业孵化-5-415
- 代理机构: 天津市尚仪知识产权代理事务所
- 代理商 邓琳
- 主分类号: G06F16/33
- IPC分类号: G06F16/33 ; G06F40/295 ; G06N3/0464 ; G06N3/08 ; G06F16/36
摘要:
本发明公开了基于知识图谱构建的信息抽取方法,包括(1)获取用于知识抽取的原始文本,并对其进行预处理,(2)对预处理结果分别进行名词维度、“的”字关系维度、数量词维度的多维度实体抽取和动词维度的关系抽取,(3)对抽取的实体和关系进行知识融合,(4)添加自定义专有名词处理过程,以解决分词过程中的过度拆分问题,最后生成满足实体‑关系‑实体的三元组并进行标注,组成实体关系对集作为Bert‑CNN‑CRF模型的训练样本,(5)利用Bert‑CNN‑CRF模型,进行关系和复杂实体的学习,本发明能够用于自然语言处理领域的知识图谱构建工作,通过将属性抽取转化为实体抽取和多维度实体抽取等过程,抽取出复杂实体和更加合理化的文本知识,具有较强的扩展性。
公开/授权文献
- CN116108146A 基于知识图谱构建的信息抽取方法 公开/授权日:2023-05-12