发明公开
- 专利标题: 一种基于词向量模型的机构名称规范方法
-
申请号: CN202010844347.X申请日: 2020-08-20
-
公开(公告)号: CN111984776A公开(公告)日: 2020-11-24
- 发明人: 侯颖 , 崔运鹏 , 李欢 , 王婷 , 马浩
- 申请人: 中国农业科学院农业信息研究所
- 申请人地址: 北京市海淀区中关村南大街12号中国农业科学院农业信息研究所
- 专利权人: 中国农业科学院农业信息研究所
- 当前专利权人: 中国农业科学院农业信息研究所
- 当前专利权人地址: 北京市海淀区中关村南大街12号中国农业科学院农业信息研究所
- 代理机构: 北京德崇智捷知识产权代理有限公司
- 代理商 申星宇
- 主分类号: G06F16/332
- IPC分类号: G06F16/332 ; G06F16/35 ; G06F16/38
摘要:
本发明公开了一种基于词向量模型的机构名称规范方法,包括:分析科技文献数据机构名称字段特征,选取机构相关字段;提取文献相关字段信息文本,并对相关字段进行清洗和变换;采用word2vec词向量方法对提取文本信息构建词向量模型并对机构名称进行聚类;结合词向量模型和聚类文件查找相似度高的词,从中识别并提取机构名称;采用Jaro相似度方法通过设置阈值计算匹配相似机构名称。本发明能有效改善基于海量数据的科技评价中的数据可靠性问题,规范科技文献数据库中的机构名称存储与管理,从而提升科技文献数据库建设的规范性。
公开/授权文献
- CN111984776B 一种基于词向量模型的机构名称规范方法 公开/授权日:2023-08-11