一种针对电力文本的流水线知识抽取方法
摘要:
本发明提供了一种针对电力文本的流水线知识抽取方法,包括以下步骤:S1、将收集得到的电力领域相关文本整合到文档中,对其中包含的实体及关系类型进行定义;S2、对文本中的语句进行预处理;S3、获得的全部数据集送入实体抽取模型中进行多轮次训练;S4、输出的实体识别结果,进行二次文本处理;S5、将标注的关系数据集送入PCNN‑Attention模型进行训练,对全部语料进行关系分类;S6、基于训练后的PCNN‑Attention模型对全部语料进行关系分类,连接实体与实体间关系,得到文本中包含的三元组知识。本发明采用上述的一种针对电力文本的流水线知识抽取方法,提升实体和关系的识别精度,由数据处理到得到三元组知识,给出针对电力文本知识抽取的全流程。
0/0