一种基于电力技术杂志论文非结构化数据提取的方法
摘要:
本发明公开了一种基于电力技术杂志论文非结构化数据提取的方法,用户输入论文的标题及对应的论文的路径,数据提取模块将论文转换为文本信息,再从文本信息内容中判断是否具备提取条件,具备提取条件之后就开始提取作者信息、摘要、关键字信息,提取之后转换成结构化数据并存入网站的新系统的存储单元。本发明实现了可以快速高效地从电力技术杂志网站的老系统的论文中提取相关信息并转化成结构化数据,并录入到网站的新系统的存储单元中,使其能够在新系统中按需求检索,最大程度地提升工作效率,减轻工作量。
0/0