电网轻量级非结构化文档内容自动识别方法、装置及介质

    公开(公告)号:CN117151117B

    公开(公告)日:2024-03-01

    申请号:CN202311419469.4

    申请日:2023-10-30

    摘要: 本发明为电网轻量级非结构化文档内容自动识别方法、装置及介质,属于电网文档识别和处理的领域,针对现有模型无法对电网数据内容进行精准识别与提取的问题,采用技术方案如下:一种电网轻量级非结构化文档内容自动识别方法,包括如下步骤:建立PLM获得向量表达式;通过盒子事件提取关系构建BERE模型对向量表达式进行关系提取,获得实体之间的关系标签;建立few‑shot命名实体识别模型对向量表达式进行实体识别处理,获得实体标签;将实体标签和关系标签作为特征或上下文信息均添加到BERE模型和few‑shot命名实体识别模型的输入中。本申请能够实现文字形态组合性明确表示,(56)对比文件CN 112613314 A,2021.04.06US 11615247 B1,2023.03.28CN 115934948 A,2023.04.07CN 112765985 A,2021.05.07CN 116720497 A,2023.09.08US 2007067285 A1,2007.03.22Mezghanni, IB (Mezghanni, ImenBouaziz);Gargouri, F (Gargouri, Faiez) .“Detecting Hidden Structures from ArabicElectronic Documents: Application to theLegal Field”《.2016 IEEE/ACIS 14thInternational Conference on SoftwareEngineering Research, Management andApplication (SERA)》.2016,全文.王娟等.“注入图情领域知识的命名实体识别模型”《.图书馆论坛》.2023,第43卷(第07期),全文.杨政等.“基于层次化表示的电力文本命名实体识别和匹配算法”《.计算机与现代化》.2022,(第05期),全文.