基于正则表达式和CRF模型的电力可研文档提取方法及装置
Abstract:
本发明公开了一种基于正则表达式和CRF模型的电力可研文档提取方法和装置,所述方法包括:获取用户提交的可研报告,对所述可研报告的内容进行识别、抽取,得到待处理的文本数据;通过数据清洗对所述待处理的文本数据进行重新审查和校验;通过知识库和语义分析模型,对完成数据清洗的待处理的文本数据进行预处理;采用基于文档内容模式、基于文本语言特点模式以及基于上下文辅助信息模式分别配置相应的正则表达式,对预处理后的文本数据进行数据提取;将利用正则表达式规则提取得到的文本数据输入训练后的CRF模型进一步提取,得到可研评审指标。本发明解决了评审过程中指标提取不准确问题,增强可研智能评审系统的智能化能力,提升用户体验。
Patent Agency Ranking
0/0