发明公开
- 专利标题: 一种基于知识图谱的科技文献分类方法
-
申请号: CN202110554334.3申请日: 2021-05-20
-
公开(公告)号: CN113239201A公开(公告)日: 2021-08-10
- 发明人: 赵三珊 , 华斌 , 黄兴德 , 宋平 , 罗祾 , 齐晓曼 , 张琪祁 , 陆启宇 , 李文清 , 田浩毅 , 王娜
- 申请人: 国网上海市电力公司 , 华东电力试验研究院有限公司
- 申请人地址: 上海市浦东新区自由贸易试验区源深路1122号;
- 专利权人: 国网上海市电力公司,华东电力试验研究院有限公司
- 当前专利权人: 国网上海市电力公司,华东电力试验研究院有限公司
- 当前专利权人地址: 上海市浦东新区自由贸易试验区源深路1122号;
- 代理机构: 上海科盛知识产权代理有限公司
- 代理商 赵继明
- 主分类号: G06F16/35
- IPC分类号: G06F16/35 ; G06F16/36 ; G06F40/284
摘要:
本发明涉及一种基于知识图谱的科技文献分类方法,包括以下步骤:文献获取步骤:获取待分类的科技文献;文本预处理步骤:将科技文献进行词法分析,得到词性标注,根据该词性标注进行过滤;特征提取步骤:统计科技文献中每个词语出现的次数,并根据包含该词语的科技文献的个数,计算每篇科技文献中的词向量,进行文本特征向量化表示;文献分类步骤:根据文本特征向量化表示的结构进行文献分类。与现有技术相比,本发明实现自动化的文献分类,词向量的计算能体现词语在语料库中的重要程度,提升后续的文献分类的可靠性,并且对词语进行了多方面的筛选,提升了分类效率和可靠性。