基于大规模语料的新兴技术识别方法和装置

    公开(公告)号:CN114969251A

    公开(公告)日:2022-08-30

    申请号:CN202210530965.6

    申请日:2022-05-16

    IPC分类号: G06F16/33 G06F16/383

    摘要: 本公开涉及数据分析技术领域,具体涉及一种基于大规模语料的新兴技术识别方法和装置,该方法包括:确定研究领域构建候选文献集,并对候选文献集进行关键词提取,以获得候选关键词数据集;根据候选文献集中候选文献数量以及关键词的相关信息对候选关键词数据集进行过滤,得到候选关键词过滤集;计算候选关键词过滤集中各关键词的新兴分数值;基于各关键词的新兴分数值和设定的新兴分数阈值对候选关键词过滤集进行筛选,得到候选新兴技术关键词数据集;采用动态回溯法对候选新兴技术关键词数据集进行处理,获得目标新兴技术关键词数据集。根据本公开的方法提高了新兴技术识别准确度。

    文献识别方法、装置、电子设备以及计算机可读存储介质

    公开(公告)号:CN114510584B

    公开(公告)日:2022-12-13

    申请号:CN202210412169.2

    申请日:2022-04-19

    IPC分类号: G06F16/38 G06F16/335

    摘要: 本公开涉及数据分析技术领域,具体涉及一种文献识别方法、装置、电子设备以及计算机可读存储介质,该文献识别方法包括:构建候选文献数据集和候选文献引文集合;获取候选文献数据集中各候选文献的施引文献数目、各候选文献的各施引文献的权重和引用信息,进而确定各候选文献的第一评估值;根据第一评估值过滤候选文献数据集得到候选文献过滤集;获取候选文献过滤集中各候选文献在预设时间周期内的被引数目变化量,各候选文献的各施引文献的第一技术领域数目和第二技术领域数目,确定各候选文献的第二评估值和第三评估值,根据第一评估值、第二评估值和第三评估值从候选文献过滤集中确定目标文献。根据本公开的方法提高了文献识别准确度。

    文献识别方法、装置、电子设备以及计算机可读存储介质

    公开(公告)号:CN114510584A

    公开(公告)日:2022-05-17

    申请号:CN202210412169.2

    申请日:2022-04-19

    IPC分类号: G06F16/38 G06F16/335

    摘要: 本公开涉及数据分析技术领域,具体涉及一种文献识别方法、装置、电子设备以及计算机可读存储介质,该文献识别方法包括:构建候选文献数据集和候选文献引文集合;获取候选文献数据集中各候选文献的施引文献数目、各候选文献的各施引文献的权重和引用信息,进而确定各候选文献的第一评估值;根据第一评估值过滤候选文献数据集得到候选文献过滤集;获取候选文献过滤集中各候选文献在预设时间周期内的被引数目变化量,各候选文献的各施引文献的第一技术领域数目和第二技术领域数目,确定各候选文献的第二评估值和第三评估值,根据第一评估值、第二评估值和第三评估值从候选文献过滤集中确定目标文献。根据本公开的方法提高了文献识别准确度。

    文档层次结构联合全局局部信息抽取关键短语方法及系统

    公开(公告)号:CN115017903A

    公开(公告)日:2022-09-06

    申请号:CN202210697632.2

    申请日:2022-06-20

    申请人: 安徽大学

    摘要: 本发明提供文档层次结构联合全局局部信息抽取关键短语方法及系统,方法包括:分词和磁性标注,NP分块;判断文档长度,根据文档长度使用BERT模型进行文档和单词的嵌入;全局相似性度量,本发明创新性地使用文档标题和结尾来对候选关键短语进行全局相似度评估,解决因为向量空间对齐造成的对较长候选短语的偏爱;局部相似度评估,采用全新的主题中心度,对全文的候选关键短语进行主题划分和聚类,充分捕获到局部显著信息;结合位置信息、全局相似度、局部相似度对候选短语进行综合评估并打分,然后根据得分进行排名;进行后处理操作,以选择关键短语。本发明解决了语义丢失、偏爱长短语、主体信息挖掘不充分导致关键短语抽取准确率低的技术问题。

    一种基于概念定义与数据增强的上下位关系抽取方法

    公开(公告)号:CN116502647A

    公开(公告)日:2023-07-28

    申请号:CN202310228446.9

    申请日:2023-03-06

    申请人: 安徽大学

    摘要: 本发明提出一种基于概念定义与数据增强的上下位关系抽取方法,包括,利用关键词抽取技术将自然文本中的概念对抽取出来,基于概念对和概念对对应的上下文关系构建概念三元组,将概念三元组的集合作为训练数据集;获取训练数据集中的每个三元组中的概念向量、概念向量之间的偏移向量以及概念定义的向量;构建输入是训练数据集,输出是概念向量之间的偏移向量、概念向量、概念定义的向量融合后的向量的上下位关系预测模型,根据训练数据集和融合后的向量对上下位关系预测模型进行训练;获取测试文本中的待预测概念三元组,将待预测概念三元组输入训练完成的上下位关系预测模型,根据输出的分量对待预测概念三元组的是否存在上下位关系进行预测。