发明公开
- 专利标题: 一种业务文档公式提取方法及装置
- 专利标题(英): Business document formula extraction method and device
-
申请号: CN201711189981.9申请日: 2017-11-24
-
公开(公告)号: CN107885870A公开(公告)日: 2018-04-06
- 发明人: 任宁 , 郝思洋 , 张青
- 申请人: 北京神州泰岳软件股份有限公司
- 申请人地址: 北京市海淀区万泉庄路28号万柳新贵大厦A座601室
- 专利权人: 北京神州泰岳软件股份有限公司
- 当前专利权人: 北京神州泰岳软件股份有限公司
- 当前专利权人地址: 北京市海淀区万泉庄路28号万柳新贵大厦A座601室
- 代理机构: 北京弘权知识产权代理事务所
- 代理商 逯长明; 许伟群
- 主分类号: G06F17/30
- IPC分类号: G06F17/30 ; G06F17/27
摘要:
本申请提供一种业务文档公式提取方法及装置,在对业务文本中的公式内容进行提取过程中,先定位业务文档中的特征语句,以减少数据处理量;再定位特征语句中的特征词信息,并确定特征语句中包含结果量信息的结果量语句以及包含自变量和运算关系信息的自变量语句;再根据信息抽取模型提取语句中的结果量信息、自变量信息以及运算关系信息,最后将提取的结果量信息和自变量信息按照运算关系组合成公式进行保存。本申请提供的公式提取方法,可根据信息抽取模型分析业务文档中的公式,并提取出相应的公式信息,提高数据挖掘的效率,解决现有公式提取方法不能识别隐含在文本中的公式内容的问题。
公开/授权文献
- CN107885870B 一种业务文档公式提取方法及装置 公开/授权日:2019-04-16