-
公开(公告)号:CN116561605A
公开(公告)日:2023-08-08
申请号:CN202310638200.9
申请日:2023-06-01
申请人: 北京智谱华章科技有限公司
IPC分类号: G06F18/23 , G06F18/214 , G06F18/22 , G06F17/16 , G06F17/18
摘要: 本申请涉及一种文献完成者研究兴趣图聚类方法、装置、设备及介质,属于大数据技术领域,解决了现有主题挖掘不精准、学者兴趣描述模糊的问题。本申请技术方案主要包括:获取目标完成者的信息,根据所述信息获取所述目标学者的文献数据集;根据所述文献数据集构建文献网络图,所述文献网络图的包括所述文献数据集中,由各文献之间的文本相似度和文献引用数据融合得到的文献关系指标;对所述文献网络图进行图聚类分析,以获得若干研究兴趣簇;依据各所述研究兴趣簇各自的文献对各所述研究兴趣簇进行主题短语提取,以获得所述目标完成者的研究兴趣画像。
-
公开(公告)号:CN115994204A
公开(公告)日:2023-04-21
申请号:CN202310140329.7
申请日:2023-02-20
IPC分类号: G06F16/33 , G06F40/30 , G06F40/295 , G06F18/22 , G06N3/088 , G06N3/0895
摘要: 本申请提出了一种适用于少样本场景的国防科技文本结构化语义分析方法,包括:获取国防科技文本数据;对国防科技文本数据进行自动模版匹配,并通过人工对匹配到的模版进行标注过滤,获得训练数据;采用对比学习的方式使用训练数据对BERT对进行无监督语义训练,得到对比学习模型;使用训练数据对对比学习模型和命名实体模型进行半监督学习联合训练,得到训练好的命名实体模型;获取待预测的未标注国防科技文本,并将国防科技文本数据输入命名实体识别模型中,输出BIOS标签作为识别结果。采用上述方案的本发明能够在少样本场景下能够充分利用未标注数据提供的信息,提高国防科技文本结构化语义分析的准确率。
-
公开(公告)号:CN113868407A
公开(公告)日:2021-12-31
申请号:CN202110943387.4
申请日:2021-08-17
申请人: 北京智谱华章科技有限公司
IPC分类号: G06F16/335 , G06F40/30
摘要: 本申请提出一种基于科研大数据的评审推荐算法的评估方法和装置,其中,方法包括:根据论文和参考文献之间的引用关系生成文献溯源图,计算文献溯源图中文献与论文的语义相似度以构建论文的语义相似文献图G,获取语义相似文献图G抽取出所有参考文献的作者建立专家集E,对专家集E中的专家命名消歧后构建评审专家集合C,计算评审专家集合C的加权得分,并将得分进行排序得到满足预设条件的专家,将评审推荐算法f的推荐结果与评审专家集合C比较,计算随排名指数衰减的准确率和召回率,并输出根据随排名指数衰减的准确率和召回率得分。本方法实现对评审推荐算法的自动评估,消除了用户的主观性和用户群体的偏差影响,同时降低了成本。
-
公开(公告)号:CN113868407B
公开(公告)日:2024-06-28
申请号:CN202110943387.4
申请日:2021-08-17
申请人: 北京智谱华章科技有限公司
IPC分类号: G06F16/335 , G06F40/30
摘要: 本申请提出一种基于科研大数据的评审推荐算法的评估方法和装置,其中,方法包括:根据论文和参考文献之间的引用关系生成文献溯源图,计算文献溯源图中文献与论文的语义相似度以构建论文的语义相似文献图G,获取语义相似文献图G抽取出所有参考文献的作者建立专家集E,对专家集E中的专家命名消歧后构建评审专家集合C,计算评审专家集合C的加权得分,并将得分进行排序得到满足预设条件的专家,将评审推荐算法f的推荐结果与评审专家集合C比较,计算随排名指数衰减的准确率和召回率,并输出根据随排名指数衰减的准确率和召回率得分。本方法实现对评审推荐算法的自动评估,消除了用户的主观性和用户群体的偏差影响,同时降低了成本。
-
公开(公告)号:CN116644338B
公开(公告)日:2024-01-30
申请号:CN202310638201.3
申请日:2023-06-01
申请人: 北京智谱华章科技有限公司
摘要: 本申请涉及一种基于混合相似度的文献主题分类方法、装置、设备及介质,属于大数据技术领域,解决了现有技术中对于文献集合内容的主题类别划分存在忽略文献内容关联和作者关联等因素而导致精度较低的问题。本申请技术方案主要包括:获取文献实体异构网络集合,所述文献实体异构网络集合至少包括文献文本、文献作者以及文献间的引文网络信息;根据所述文献文本、所述文献作者以及所述引文网络信息进行指标评价,并进行融合以生成混合相似度指标;根据所述混合相似度指标对所述文献实体异构网络集合中的文献进行聚类分析以获得若干文献簇;依据各所述文献簇中文献的特征向量和所述(56)对比文件褚晓泉 等.基于智能情报挖掘的技术甄别发展现状及趋势预测研究《.工程管理科技前沿》.2022,第41卷(第3期),7-14.席崇俊 等. 基于异构信息网络的科技文献主题识别研究《.文献与数据学报》.2022,第4卷(第3期),66-78.Cezar Sas et al..Using Structural andSemantic Information to Identify SoftwareComponents《.2021 IEEE InternationalConference on Software Analysis,Evolution and Reengineering (SANER)》.2021,546-550.Meysam Asgari-Chenaghlu etal..TopicBERT: A cognitive approach fortopic detection from multimodal poststream using BERT and memory–graph.《Chaos, Solitons and Fractals》.2021,1-13.
-
公开(公告)号:CN116561605B
公开(公告)日:2023-10-24
申请号:CN202310638200.9
申请日:2023-06-01
申请人: 北京智谱华章科技有限公司
IPC分类号: G06F18/23 , G06F18/214 , G06F18/22 , G06F17/16 , G06F17/18
摘要: 本申请涉及一种文献完成者研究兴趣图聚类方法、装置、设备及介质,属于大数据技术领域,解决了现有主题挖掘不精准、学者兴趣描述模糊的问题。本申请技术方案主要包括:获取目标完成者的信息,根据所述信息获取所述目标学者的文献数据集;根据所述文献数据集构建文献网络图,所述文献网络图的包括所述文献数据集中,由各文献之间的文本相似度和文献引用数据融合得到的文献关系指标;对所述文献网络图进行图聚类分析,以获得若干研究兴趣簇;依据各所述研究兴趣簇各自的文献对各所述研究兴趣簇进行主题短语提取,以获得所述目标完成者的研究兴趣画像。
-
公开(公告)号:CN116304037A
公开(公告)日:2023-06-23
申请号:CN202310190487.3
申请日:2023-02-23
申请人: 北京智谱华章科技有限公司
IPC分类号: G06F16/35 , G06F18/2431 , G06F18/25 , G06F17/16
摘要: 本申请提出了一种对科技概念体系进行知识融合的方法,包括:获取多个科技概念体系并进行划分,得到一个目标科技概念体系和多个待融合科技概念体系;通过拆分规则对目标科技概念体系和待融合科技概念体系的节点进行识别得到待拆分节点,对待拆分节点的概念名称进行拆分并更新节点;通过相似性计算对更新后的目标科技概念体系和待融合科技概念体系的节点进行检测,得到具有相同含义的概念名称的节点,并根据具有相同含义的概念名称的节点进行融合;计算待融合科技概念体系的节点和融合后的目标科技概念体系的父亲节点的置信度,并根据置信度进行融合,得到融合后的科技概念体系。本申请能够融合多种数据源,提高科技概念分类的准确性。
-
公开(公告)号:CN115994529A
公开(公告)日:2023-04-21
申请号:CN202211458429.6
申请日:2022-11-21
申请人: 北京智谱华章科技有限公司
IPC分类号: G06F40/242 , G06F40/253 , G06F40/295 , G06F40/30 , G06F40/268 , G06F40/289 , G06F40/216
摘要: 本发明涉及一种通用的英语推文预处理方法及计算机设备,属于数据处理技术领域;解决了英语推文中存在大量主观词和非标准语素,影响推文预处理结果及命名实体识别性能的问题;本发明的方法包括:基于多个领域的英文文本,构建得到主观词表;对待处理英语推文中的非标准语素进行语义还原及信息提取,得到经过预处理的推文文本;基于预处理后的推文文本,构建双栈结构进行子句提取;基于主观词表,利用语法依存分析模型及树形父子级结构对预处理后的推文文本进行命名实体提取,得到英语推文的命名实体识别结果;输出经过预处理的推文文本、英语推文包含的子句和英语推文的命名实体识别结果得到英语推文的预处理结果。
-
公开(公告)号:CN115186665A
公开(公告)日:2022-10-14
申请号:CN202211118339.2
申请日:2022-09-15
申请人: 北京智谱华章科技有限公司
IPC分类号: G06F40/289 , G06F40/30 , G06F40/237 , G06F40/216 , G06N3/04 , G06N3/08
摘要: 本发明涉及一种基于语义的无监督学术关键词提取方法及设备,属于自然语言处理技术领域;包括以下步骤:获取待识别论文,利用所述论文的标题和摘要作为待识别文本;基于预先构建的学术词表对所述论文的待识别文本进行分词;根据分词后得到的每个词的词长、词位置和词的TF‑IDF得分,计算每个词的综合得分;基于所述综合得分,得到候选关键词;将所述候选关键词与所述待识别文本输入预先训练的深度语义模型,得到所述关键词与论文标题和摘要的语义相似度;选择所述语义相似度大于阈值的关键词,得到所述待识别论文的学术关键词。本发明解决了现有的关键词提取方法存在噪音词且效率低的问题。
-
公开(公告)号:CN112487796B
公开(公告)日:2022-02-18
申请号:CN202011351553.3
申请日:2020-11-27
申请人: 北京智谱华章科技有限公司
IPC分类号: G06F40/284 , G06F40/58 , G06N3/04
摘要: 本发明公开了一种用于序列标注的方法、装置和电子设备。该方法中,首先根据转换句子得到的词向量提取句子的局部上下文特征,再根据词向量和局部上下文特征获取注意力表示,最后将所述注意力表示输入序列标注层,得到用于序列标注的模型。通过对局部上下文相关性的特征表示进行增强,使得到的用于序列标注的模型可以更有效地学习文本的局部上下文信息,从而得到准确的识别结果,更好的完成序列标注任务及其衍生出的更多的自然语言处理任务。
-
-
-
-
-
-
-
-
-