-
公开(公告)号:CN108846031B
公开(公告)日:2022-05-13
申请号:CN201810521004.2
申请日:2018-05-28
申请人: 同方知网数字出版技术股份有限公司 , 中国电力科学研究院有限公司 , 国网能源研究院有限公司 , 国网浙江省电力有限公司
发明人: 段飞虎 , 吕强 , 冯自强 , 张宏伟 , 邓春宇 , 季知祥 , 史梦洁 , 陈立斌 , 王冠群 , 徐翀 , 梁芙翠 , 王頔 , 魏冠元 , 付蓉 , 马铁群 , 朱承志 , 孙黎滢 , 谷记亭
IPC分类号: G06F16/33 , G06F40/289 , G06F40/30
摘要: 本发明公开了一种面向电力行业的项目相似性对比方法,该方法包括:将文本进行碎片化处理,统一格式并保存在数据库中;通过KBase数据库检索出与比对项目最相似的几篇文本;将相似文本分别与比对文本进行比较;将所有相似文本的比对结果进行分析,并按照比对顺序形成结果输出;对对比语句的相似度进行优化,该优化采用并行计算使用多个线程同时计算。所述方法通过将文本按照句子进行拆分,并进行分词达到文本表示最小粒度,之后根据电力主题词进行语义分析,并在数据库所有项目中查找相似文本标记输出;提高了申报项目查重比对的效率,减少了人力物力等资源的浪费。
-
公开(公告)号:CN108846031A
公开(公告)日:2018-11-20
申请号:CN201810521004.2
申请日:2018-05-28
申请人: 同方知网数字出版技术股份有限公司 , 中国电力科学研究院有限公司 , 国网能源研究院有限公司 , 国网浙江省电力有限公司
发明人: 段飞虎 , 吕强 , 冯自强 , 张宏伟 , 邓春宇 , 季知祥 , 史梦洁 , 陈立斌 , 王冠群 , 徐翀 , 梁芙翠 , 王頔 , 魏冠元 , 付蓉 , 马铁群 , 朱承志 , 孙黎滢 , 谷记亭
摘要: 本发明公开了一种面向电力行业的项目相似性对比方法,该方法包括:将文本进行碎片化处理,统一格式并保存在数据库中;通过KBase数据库检索出与比对项目最相似的几篇文本;将相似文本分别与比对文本进行比较;将所有相似文本的比对结果进行分析,并按照比对顺序形成结果输出;对对比语句的相似度进行优化,该优化采用并行计算使用多个线程同时计算。所述方法通过将文本按照句子进行拆分,并进行分词达到文本表示最小粒度,之后根据电力主题词进行语义分析,并在数据库所有项目中查找相似文本标记输出;提高了申报项目查重比对的效率,减少了人力物力等资源的浪费。
-
公开(公告)号:CN118551098A
公开(公告)日:2024-08-27
申请号:CN202410425722.5
申请日:2024-04-10
申请人: 同方知网数字出版技术股份有限公司
IPC分类号: G06F16/9535 , G06F18/214 , G06F18/22
摘要: 本发明公开了一种基于大数据和主题社区的学术选题分析系统及方法,涉及计算机技术领域,可解决在数据量大,且用户群体需求不同的情况下,如何准确快速的进行针对性学术选题分析的技术问题。系统包括:数据获取模块用于获取目标用户检索参数对应的目标数据集合;热门主题分析模块用于提取目标数据集合的至少一个第一热门主题和每个第一热门主题所在的文献数量,依此分析热门主题共现信息;热门主题发展态势分析模块用于按时间划分目标数据集合得到子目标数据集合,确定每个子目标数据集合的目标主题社区,计算任意一子目标数据集合的任意一目标主题社区与时间相邻的子目标数据集合的所有目标主题社区之间的相似性,得到热门主题发展态势信息。
-
公开(公告)号:CN118377956A
公开(公告)日:2024-07-23
申请号:CN202410312305.X
申请日:2024-03-19
申请人: 同方知网数字出版技术股份有限公司
IPC分类号: G06F16/9535 , G06N5/025 , G06N5/04
摘要: 本申请涉及数据处理技术领域,提出了一种用户投稿的期刊推荐方法、装置、设备及介质,其中,方法包括:获取用户投稿信息;分析各期刊的收录文献信息,以构建期刊知识网络结构;根据所述用户投稿信息和所述期刊知识网络结构,确定所述用户投稿信息对应的期刊推荐集合;根据所述用户投稿信息,从多个维度对所述期刊推荐集合中各推荐期刊进行投稿分析,得到投稿分析结果;展示所述投稿分析结果。通过该技术方案,从多个维度进行分析为用户推荐更合适的期刊集合,同时通过展示推荐期刊画像让用户更直观判断期刊的合适程度。
-
公开(公告)号:CN118349588A
公开(公告)日:2024-07-16
申请号:CN202410584286.6
申请日:2024-05-11
申请人: 同方知网数字出版技术股份有限公司
IPC分类号: G06F16/2458 , G06F16/36 , G06F40/216 , G06F40/279
摘要: 本公开涉及数据挖掘技术领域,公开了一种社区评价方法、装置、电子设备及计算机可读存储介质;其方法包括:获取多个待评价文献主题社区的社区结构数据,社区结构数据包括节点数据、边数据、社区标识数据;针对多个待评价文献主题社区中任一目标社区,根据目标社区的目标社区结构数据,计算目标社区对应的多个目标评价指标的指标值;其中,多个目标评价指标包括:用于衡量社区规模的直径指标、用于衡量社区信息集中程度的信息密度指标;基于各目标社区对应的多个目标评价指标的指标值,生成针对多个待评价文献主题社区的评价结果。本公开从主题社区直径和主题社区信息密度两个维度评价主题社区,从而可以更加全面地评价每个主题社区。
-
公开(公告)号:CN111078153B
公开(公告)日:2023-08-01
申请号:CN201911322978.9
申请日:2019-12-20
申请人: 同方知网数字出版技术股份有限公司
摘要: 本发明公开了一种基于文件的分布式存储方法,包括:根据写入的路径确定要写入的节点,及根据写入的文件名确定要写入的dob文件的全路径名以及存储的表名;获取dob文件的大小,将获取的dob文件指针移动到该dob文件的末尾,读取写入的文件内容并进行加密,将处理过的文件内容写入dob文件;存储写入dob文件的目录、位置、大小、检索信息,并缓存目录信息,以提高检索性能。本发明采用局部变换算法结合位置偏移,实现分布式存储节点数据的安全性;采用了负载均衡算法,数据平衡地存储在各个节点,提高了整体的处理性能。
-
公开(公告)号:CN111292848B
公开(公告)日:2023-05-16
申请号:CN201911403947.6
申请日:2019-12-31
申请人: 同方知网数字出版技术股份有限公司
摘要: 本发明公开了一种基于贝叶斯估计的医疗知识图谱辅助推理方法,包括:将病例进行碎片化处理、实体抽取和实体消歧,把病例的文本不同维度的属性数据规范化并统一入库;对格式化的病例数据提取实体,并使用贝叶斯算法对症状共现矩阵和症状概率矩阵进行参数估计;并将估计出的结果进行权重归一化并保存到知识图谱中用做推理模型的权重输入;将生成的参数数据导入到知识图谱中;对描述的病情或病例数据进行解析,辅助推理得到最终结果。
-
公开(公告)号:CN111324742A
公开(公告)日:2020-06-23
申请号:CN202010084140.7
申请日:2020-02-10
申请人: 同方知网(北京)技术有限公司 , 同方知网数字出版技术股份有限公司
IPC分类号: G06F16/36 , G06F16/906 , G06F40/242 , G06N3/04
摘要: 本发明公开了一种数字人文知识图谱的构建方法,包括:采用序列标注模型Bi-LSTM+CRF算法对文本数据进行实体识别并构建实体词典;把通过Bi-LSTM+CRF模型数据通过实体词典匹配的方式抽取语料中的实体,并设置语料的实体标志位;对语料进行分类,用以抽取不同的信息;采用Bi-LSTM+CRF模型进行关系识别,并抽取实体的关系;采用Bi-LSTM+CRF模型进行属性识别,并抽取实体的属性。本发明用于抽取信息的语料为古代相关文献,既能确保数字人文知识图谱的准确性,又能高效的排除噪声数据对信息抽取的干扰;该方法在信息抽取的规划中,兼顾准确率、召回率以及效率。
-
公开(公告)号:CN111240662B
公开(公告)日:2024-01-09
申请号:CN202010059133.1
申请日:2020-01-16
申请人: 同方知网(北京)技术有限公司 , 同方知网数字出版技术股份有限公司
IPC分类号: G06F8/34 , G06F16/2458 , G06F16/26 , G06N20/00
摘要: 本发明公开了一种基于任务可视化拖拽的spark机器学习系统及方法,该系统包括流程设计器、流程解析器与流程调度器;所述方法包括将数据源组件、数据预处理组件、机器学习组件、保存组件拖拽到设计区构建机器学习流程,并生成流程描述语言;解析用户构建的机器学习流程图,对各个组件之间的关系、输入、输出进行解析,通过设计的算法将流程图翻译为一套调度器可识别的数据;解析可识别的数据,将构建的机(56)对比文件Zhixiang Wang 等.Distributed Big DataMining Platform for Smart Grid《.2018 IEEEInternational Conference on Big Data (BigData)》.2019,2345-2354.赵玲玲 等.基于Spark的流程化机器学习分析方法《.计算机系统应用》.2016,第25卷(第12期),162-168.钟华等.科学大数据智能分析软件的现状与趋势《.中国科学院院刊》.2018,第33卷(第8期),812-817.
-
公开(公告)号:CN117194743A
公开(公告)日:2023-12-08
申请号:CN202311041088.7
申请日:2023-08-17
申请人: 同方知网数字出版技术股份有限公司
IPC分类号: G06F16/9035 , G06F16/906 , G06F40/30 , G06F40/284
摘要: 本发明公开了一种渐进式学习资源推荐方法、装置、存储介质及计算机设备,涉及信息技术领域,主要在于能够提高学习资源的推荐效率和推荐准确度。其中方法包括:获取学习资源和用户输入的检索信息;对学习资源进行聚类,得到不同聚类主题下的学习资源;基于不同聚类主题下的学习资源,确定不同聚类主题对应的主题特征词;基于检索信息和主题特征词,在不同聚类主题中确定向用户推荐的第一目标聚类主题,并响应于用户在第一目标聚类主题选择的第二目标聚类主题;确定第二目标聚类主题对应的主题热度图、主题分布图和特征共现图谱;接收用户针对上述三种图选择的目标主题特征词,并根据目标主题特征词,向用户推荐对应的学习资源。
-
-
-
-
-
-
-
-
-