-
公开(公告)号:CN108846031B
公开(公告)日:2022-05-13
申请号:CN201810521004.2
申请日:2018-05-28
申请人: 同方知网数字出版技术股份有限公司 , 中国电力科学研究院有限公司 , 国网能源研究院有限公司 , 国网浙江省电力有限公司
发明人: 段飞虎 , 吕强 , 冯自强 , 张宏伟 , 邓春宇 , 季知祥 , 史梦洁 , 陈立斌 , 王冠群 , 徐翀 , 梁芙翠 , 王頔 , 魏冠元 , 付蓉 , 马铁群 , 朱承志 , 孙黎滢 , 谷记亭
IPC分类号: G06F16/33 , G06F40/289 , G06F40/30
摘要: 本发明公开了一种面向电力行业的项目相似性对比方法,该方法包括:将文本进行碎片化处理,统一格式并保存在数据库中;通过KBase数据库检索出与比对项目最相似的几篇文本;将相似文本分别与比对文本进行比较;将所有相似文本的比对结果进行分析,并按照比对顺序形成结果输出;对对比语句的相似度进行优化,该优化采用并行计算使用多个线程同时计算。所述方法通过将文本按照句子进行拆分,并进行分词达到文本表示最小粒度,之后根据电力主题词进行语义分析,并在数据库所有项目中查找相似文本标记输出;提高了申报项目查重比对的效率,减少了人力物力等资源的浪费。
-
公开(公告)号:CN108846031A
公开(公告)日:2018-11-20
申请号:CN201810521004.2
申请日:2018-05-28
申请人: 同方知网数字出版技术股份有限公司 , 中国电力科学研究院有限公司 , 国网能源研究院有限公司 , 国网浙江省电力有限公司
发明人: 段飞虎 , 吕强 , 冯自强 , 张宏伟 , 邓春宇 , 季知祥 , 史梦洁 , 陈立斌 , 王冠群 , 徐翀 , 梁芙翠 , 王頔 , 魏冠元 , 付蓉 , 马铁群 , 朱承志 , 孙黎滢 , 谷记亭
摘要: 本发明公开了一种面向电力行业的项目相似性对比方法,该方法包括:将文本进行碎片化处理,统一格式并保存在数据库中;通过KBase数据库检索出与比对项目最相似的几篇文本;将相似文本分别与比对文本进行比较;将所有相似文本的比对结果进行分析,并按照比对顺序形成结果输出;对对比语句的相似度进行优化,该优化采用并行计算使用多个线程同时计算。所述方法通过将文本按照句子进行拆分,并进行分词达到文本表示最小粒度,之后根据电力主题词进行语义分析,并在数据库所有项目中查找相似文本标记输出;提高了申报项目查重比对的效率,减少了人力物力等资源的浪费。
-