发明公开
- 专利标题: 一种针对电力文本的流水线知识抽取方法
-
申请号: CN202410540447.1申请日: 2024-04-30
-
公开(公告)号: CN118428463A公开(公告)日: 2024-08-02
- 发明人: 王业 , 李萍 , 黄翔 , 任旭超 , 李佑伟 , 朱鹏宇 , 高云云 , 赵晓伟
- 申请人: 国网江苏省电力有限公司淮安供电分公司 , 国网江苏省电力有限公司
- 申请人地址: 江苏省淮安市淮海南路134号;
- 专利权人: 国网江苏省电力有限公司淮安供电分公司,国网江苏省电力有限公司
- 当前专利权人: 国网江苏省电力有限公司淮安供电分公司,国网江苏省电力有限公司
- 当前专利权人地址: 江苏省淮安市淮海南路134号;
- 代理机构: 北京圣州专利代理事务所
- 代理商 刘岩
- 主分类号: G06N5/022
- IPC分类号: G06N5/022 ; G06N3/0455 ; G06N3/0442 ; G06N3/047 ; G06N3/0499 ; G06N3/088 ; G06F40/30 ; G06F40/295 ; G06F16/35 ; G06Q50/06 ; G06N3/048
摘要:
本发明提供了一种针对电力文本的流水线知识抽取方法,包括以下步骤:S1、将收集得到的电力领域相关文本整合到文档中,对其中包含的实体及关系类型进行定义;S2、对文本中的语句进行预处理;S3、获得的全部数据集送入实体抽取模型中进行多轮次训练;S4、输出的实体识别结果,进行二次文本处理;S5、将标注的关系数据集送入PCNN‑Attention模型进行训练,对全部语料进行关系分类;S6、基于训练后的PCNN‑Attention模型对全部语料进行关系分类,连接实体与实体间关系,得到文本中包含的三元组知识。本发明采用上述的一种针对电力文本的流水线知识抽取方法,提升实体和关系的识别精度,由数据处理到得到三元组知识,给出针对电力文本知识抽取的全流程。