- 专利标题: 电网轻量级非结构化文档内容自动识别方法、装置及介质
-
申请号: CN202311419469.4申请日: 2023-10-30
-
公开(公告)号: CN117151117B公开(公告)日: 2024-03-01
- 发明人: 孙钢 , 胡若云 , 王庆娟 , 叶红豆 , 方智淳 , 宋宛净 , 陈千羿 , 丁欣玮 , 陈志伟 , 袁健 , 柳圆成 , 金良峰 , 郭磊 , 贾旭敏 , 洪灵
- 申请人: 国网浙江省电力有限公司营销服务中心 , 国网浙江省电力有限公司
- 申请人地址: 浙江省杭州市余杭区云联路138号5幢
- 专利权人: 国网浙江省电力有限公司营销服务中心,国网浙江省电力有限公司
- 当前专利权人: 国网浙江省电力有限公司营销服务中心,国网浙江省电力有限公司
- 当前专利权人地址: 浙江省杭州市余杭区云联路138号5幢
- 代理机构: 浙江翔隆专利事务所
- 代理商 李萌; 张建青
- 主分类号: G06F40/30
- IPC分类号: G06F40/30 ; G06F40/295 ; G06F40/211 ; G06F18/2413 ; G06N3/0455 ; G06N3/08
摘要:
本发明为电网轻量级非结构化文档内容自动识别方法、装置及介质,属于电网文档识别和处理的领域,针对现有模型无法对电网数据内容进行精准识别与提取的问题,采用技术方案如下:一种电网轻量级非结构化文档内容自动识别方法,包括如下步骤:建立PLM获得向量表达式;通过盒子事件提取关系构建BERE模型对向量表达式进行关系提取,获得实体之间的关系标签;建立few‑shot命名实体识别模型对向量表达式进行实体识别处理,获得实体标签;将实体标签和关系标签作为特征或上下文信息均添加到BERE模型和few‑shot命名实体识别模型的输入中。本申请能够实现文字形态组合性明确表示,(56)对比文件CN 112613314 A,2021.04.06US 11615247 B1,2023.03.28CN 115934948 A,2023.04.07CN 112765985 A,2021.05.07CN 116720497 A,2023.09.08US 2007067285 A1,2007.03.22Mezghanni, IB (Mezghanni, ImenBouaziz);Gargouri, F (Gargouri, Faiez) .“Detecting Hidden Structures from ArabicElectronic Documents: Application to theLegal Field”《.2016 IEEE/ACIS 14thInternational Conference on SoftwareEngineering Research, Management andApplication (SERA)》.2016,全文.王娟等.“注入图情领域知识的命名实体识别模型”《.图书馆论坛》.2023,第43卷(第07期),全文.杨政等.“基于层次化表示的电力文本命名实体识别和匹配算法”《.计算机与现代化》.2022,(第05期),全文.
公开/授权文献
- CN117151117A 电网轻量级非结构化文档内容自动识别方法、装置及介质 公开/授权日:2023-12-01