发明公开
- 专利标题: 一种基于电力技术杂志论文非结构化数据提取的方法
- 专利标题(英): Method for extracting journal paper unstructured data based on electric power technology
-
申请号: CN201310179651.7申请日: 2013-05-15
-
公开(公告)号: CN103279506A公开(公告)日: 2013-09-04
- 发明人: 黄星 , 周年荣 , 张征容 , 潘侃 , 杨晴 , 张志生 , 邓安明 , 尹福荣 , 陈达 , 崔俊 , 张成伟
- 申请人: 云南电力试验研究院(集团)有限公司电力研究院 , 昆明能讯科技有限责任公司 , 广州致讯信息科技有限责任公司
- 申请人地址: 云南省昆明市经济技术开发区云大西路中段云电科技园
- 专利权人: 云南电力试验研究院(集团)有限公司电力研究院,昆明能讯科技有限责任公司,广州致讯信息科技有限责任公司
- 当前专利权人: 云南电力试验研究院(集团)有限公司电力研究院,昆明能讯科技有限责任公司,广州致讯信息科技有限责任公司
- 当前专利权人地址: 云南省昆明市经济技术开发区云大西路中段云电科技园
- 代理机构: 云南派特律师事务所
- 代理商 张怡
- 主分类号: G06F17/30
- IPC分类号: G06F17/30
摘要:
本发明公开了一种基于电力技术杂志论文非结构化数据提取的方法,用户输入论文的标题及对应的论文的路径,数据提取模块将论文转换为文本信息,再从文本信息内容中判断是否具备提取条件,具备提取条件之后就开始提取作者信息、摘要、关键字信息,提取之后转换成结构化数据并存入网站的新系统的存储单元。本发明实现了可以快速高效地从电力技术杂志网站的老系统的论文中提取相关信息并转化成结构化数据,并录入到网站的新系统的存储单元中,使其能够在新系统中按需求检索,最大程度地提升工作效率,减轻工作量。