Invention Publication
- Patent Title: 基于正则表达式和CRF模型的电力可研文档提取方法及装置
-
Application No.: CN202111326674.7Application Date: 2021-11-10
-
Publication No.: CN114239579APublication Date: 2022-03-25
- Inventor: 林彧茜 , 苏江文 , 卢伟龙 , 陈严纾 , 林志忠 , 蔡宇翔 , 方略斌 , 蔡映红 , 肖琦敏 , 郑飘飘 , 潘丹 , 方镇林
- Applicant: 国网福建省电力有限公司信息通信分公司 , 福建亿榕信息技术有限公司
- Applicant Address: 福建省福州市鼓楼区五四路264号2号楼10层;
- Assignee: 国网福建省电力有限公司信息通信分公司,福建亿榕信息技术有限公司
- Current Assignee: 国网福建省电力有限公司信息通信分公司,福建亿榕信息技术有限公司
- Current Assignee Address: 福建省福州市鼓楼区五四路264号2号楼10层;
- Agency: 福州市鼓楼区京华专利事务所
- Agent 宋连梅
- Main IPC: G06F40/295
- IPC: G06F40/295 ; G06F40/242 ; G06F40/216 ; G06F16/35 ; G06F40/30 ; G06V30/40 ; G06V30/413

Abstract:
本发明公开了一种基于正则表达式和CRF模型的电力可研文档提取方法和装置,所述方法包括:获取用户提交的可研报告,对所述可研报告的内容进行识别、抽取,得到待处理的文本数据;通过数据清洗对所述待处理的文本数据进行重新审查和校验;通过知识库和语义分析模型,对完成数据清洗的待处理的文本数据进行预处理;采用基于文档内容模式、基于文本语言特点模式以及基于上下文辅助信息模式分别配置相应的正则表达式,对预处理后的文本数据进行数据提取;将利用正则表达式规则提取得到的文本数据输入训练后的CRF模型进一步提取,得到可研评审指标。本发明解决了评审过程中指标提取不准确问题,增强可研智能评审系统的智能化能力,提升用户体验。
Information query