-
公开(公告)号:CN114860920B
公开(公告)日:2024-09-13
申请号:CN202210416073.3
申请日:2022-04-20
申请人: 内蒙古工业大学
IPC分类号: G06F16/34 , G06F40/211 , G06F40/284 , G06F40/289 , G06N3/0464 , G06N3/094 , G06N3/0475 , G06N3/045
摘要: 一种基于异构图的单语言主题摘要生成方法,从网络爬取源语言的摘要数据集,并进行分词、分句和打标签操作;使用对抗训练学习一个从源语言到目标语言的空间线性映射,得到源语言与目标语言在同一个共享向量空间的词向量,对分词、分句和打标签操作得到的数据进行预处理,得到包含单词节点、句子节点和边特征的向量,其中源语言即为需要生成摘要的数据集的语种,目标语言为一个大型语种;使用图注意力网络,将包含单词节点、句子节点和边特征的向量进行信息聚合,不断更新单词节点与句子节点,得到信息聚合之后的句子节点;将信息聚合之后的句子节点进行节点分类,并以交叉熵损失作为训练目标,根据句子的分数排序,筛选适合作为摘要的句子节点。
-
公开(公告)号:CN115292568B
公开(公告)日:2023-11-17
申请号:CN202210201217.3
申请日:2022-03-02
申请人: 内蒙古工业大学
IPC分类号: G06F16/951 , G06F16/33 , G06F40/211 , G06F40/289 , G06F40/30 , G06F18/214 , G06F18/2433 , G06F18/241 , G06N3/0442 , G06N3/08 , G06Q50/26
摘要: 本发明提供了一种基于联合模型的民生新闻事件抽取方法,使用网络爬虫爬取网络公开民生领域新闻,对原始语料进行数据清洗,获得可用的文本语料数据;对数据进行人工标注,获得质量较高的数据集;使用预训练语言模型Bert获得词嵌入表示;实现长短期记忆神经网络模型捕获文本数据单词之间的依赖特征,并作为共享参数层,实现联合提取;实现多层标签指针网络分别提取触发词和事件参数,解决角色重叠问题。本发明通过网络公开民生新闻人工标注数据集,利用预训练语言模型和循环神经网络挖掘民生新闻文本数据的深层语义信息,利用多层标签指针网络解决角色重叠问题,在民生新闻事件抽取任务上取得了较好的效果。
-
公开(公告)号:CN115292568A
公开(公告)日:2022-11-04
申请号:CN202210201217.3
申请日:2022-03-02
申请人: 内蒙古工业大学
IPC分类号: G06F16/951 , G06F16/33 , G06F40/211 , G06F40/289 , G06K9/62 , G06N3/04 , G06N3/08 , G06Q50/26
摘要: 本发明提供了一种基于联合模型的廉政和民生新闻事件抽取方法,使用网络爬虫爬取网络公开廉政和民生领域新闻,对原始语料进行数据清洗,获得可用的文本语料数据;对数据进行人工标注,获得质量较高的数据集;使用预训练语言模型Bert获得词嵌入表示;实现长短期记忆神经网络模型捕获文本数据单词之间的依赖特征,并作为共享参数层,实现联合提取;实现多层标签指针网络分别提取触发词和事件参数,解决角色重叠问题。本发明通过网络公开廉政和民生新闻人工标注数据集,利用预训练语言模型和循环神经网络挖掘廉政和民生新闻文本数据的深层语义信息,利用多层标签指针网络解决角色重叠问题,在廉政和民生新闻事件抽取任务上取得了较好的效果。
-
公开(公告)号:CN114627978B
公开(公告)日:2024-09-17
申请号:CN202210250734.X
申请日:2022-03-15
申请人: 内蒙古工业大学
IPC分类号: G16C20/30 , G16C20/50 , G16C20/70 , G06F18/241 , G06N3/0464 , G06N3/08 , G06N3/126
摘要: 一种基于R‑CNN‑GA的抗乳腺癌候选药物分类预测方法,包括:基于RFE和RF的主特征提取,提取原始数据中对生物活性影响重要性最强的主要特征;基于CNN_FC的ERα生物活性的定量预测方法,通过选取主要的特征变量来预测化合物对应的IC50和PIC50值;基于CNN_FC的多标签分类预测方法,对数据中化合物的Caco‑2、CYP3A4、hERG、HOB、MN特性进行分类预测;以及基于遗传算法的多目标优化模型,优化选取有益的特征变量及其最优取值范围。本发明高精度地预测了IC50和PIC50的值,并对原始特征进行指标分类,并结合遗传算法进行优化,进一步选取抗乳腺癌候选药物有益的特征及其最优取值范围。
-
公开(公告)号:CN115544244A
公开(公告)日:2022-12-30
申请号:CN202211084950.8
申请日:2022-09-06
申请人: 内蒙古工业大学
IPC分类号: G06F16/34 , G06F16/738 , G06F40/30 , G06N3/04 , G06N3/08
摘要: 一种基于交叉融合和重建的多模态生成式摘要获取方法,从多模态摘要数据集中提取文本特征序列和视频特征序列,使用文本和视频指导下交叉融合模块,分别将一种模态的特征序列作为指导模态映射为查询特征,另一种模态的特征序列作为目标模态映射为键值对特征,捕捉模态间相关性高于设定值的一致性语义;经过迭代融合,生成文本和视频指导下多模态融合表示;使用文本和视频重建器得到文本和视频重建特征序列,并计算文本和视频重建损失;使用摘要生成器进行两层融合操作,输出摘要分布,并计算与参考摘要的生成损失;根据各损失,对各组件分别使用不同的损失函数组合,加强对模态间一致性和模态内互补语义的约束效果,提升生成摘要的准确性和丰富性。
-
公开(公告)号:CN117313737A
公开(公告)日:2023-12-29
申请号:CN202311053791.X
申请日:2023-08-21
申请人: 内蒙古工业大学
IPC分类号: G06F40/30 , G06N3/0455 , G06N3/08
摘要: 一种基于Fast‑Transformer的事件抽取方法,选取带有长文本序列的句子级事件抽取任务数据集;将输入的句子编码为词嵌入序列;采用Fast‑Transformer结构作为特征抽取模块,对词嵌入序列进行语义特征编码,捕获词与词之间的依赖关系;以得到的语义特征编码作为输入,由事件类别、事件类型、事件角色组成事件模板,利用多层标签指针网络,将待抽取事件中的事件类型标签和事件参数的角色标签组合在一起得到新的标签组合,然后对整体进行序列标注,将事件抽取任务转化成序列标注任务;设计触发词辅助模块,利用注意力机制将词嵌入序列与数据标注中触发词包含的特征信息结合,进行结果预测,本发明在整体上取得了良好的抽取结果。
-
公开(公告)号:CN115544244B
公开(公告)日:2023-11-17
申请号:CN202211084950.8
申请日:2022-09-06
申请人: 内蒙古工业大学
IPC分类号: G06F16/34 , G06F16/738 , G06F40/30 , G06N3/045 , G06N3/044 , G06N3/0499 , G06N3/08
摘要: 一种基于交叉融合和重建的多模态生成式摘要获取方法,从多模态摘要数据集中提取文本特征序列和视频特征序列,使用文本和视频指导下交叉融合模块,分别将一种模态的特征序列作为指导模态映射为查询特征,另一种模态的特征序列作为目标模态映射为键值对特征,捕捉模态间相关性高于设定值的一致性语义;经过迭代融合,生成文本和视频指导下多模态融合表示;使用文本和视频重建器得到文本和视频重建特征序列,并计算文本和视频重建损失;使用摘要生成器进行两层融合操作,输出摘要分布,并计算与参考摘要的生成损失;根据各损失,对各组件分别使用不同的损失函数组合,加强对模态间一致性和模态内互补语义的约束效果,提升生成摘要的准确性和丰富性。
-
公开(公告)号:CN114860920A
公开(公告)日:2022-08-05
申请号:CN202210416073.3
申请日:2022-04-20
申请人: 内蒙古工业大学
IPC分类号: G06F16/34 , G06F40/211 , G06F40/284 , G06F40/289 , G06N3/04 , G06N3/08
摘要: 一种基于异构图的单语言主题摘要生成方法,从网络爬取源语言的摘要数据集,并进行分词、分句和打标签操作;使用对抗训练学习一个从源语言到目标语言的空间线性映射,得到源语言与目标语言在同一个共享向量空间的词向量,对分词、分句和打标签操作得到的数据进行预处理,得到包含单词节点、句子节点和边特征的向量,其中源语言即为需要生成摘要的数据集的语种,目标语言为一个大型语种;使用图注意力网络,将包含单词节点、句子节点和边特征的向量进行信息聚合,不断更新单词节点与句子节点,得到信息聚合之后的句子节点;将信息聚合之后的句子节点进行节点分类,并以交叉熵损失作为训练目标,根据句子的分数排序,筛选适合作为摘要的句子节点。
-
公开(公告)号:CN114627978A
公开(公告)日:2022-06-14
申请号:CN202210250734.X
申请日:2022-03-15
申请人: 内蒙古工业大学
摘要: 一种基于R‑CNN‑GA的抗乳腺癌候选药物分类预测方法,包括:基于RFE和RF的主特征提取,提取原始数据中对生物活性影响重要性最强的主要特征;基于CNN_FC的ERα生物活性的定量预测方法,通过选取主要的特征变量来预测化合物对应的IC50和PIC50值;基于CNN_FC的多标签分类预测方法,对数据中化合物的Caco‑2、CYP3A4、hERG、HOB、MN特性进行分类预测;以及基于遗传算法的多目标优化模型,优化选取有益的特征变量及其最优取值范围。本发明高精度地预测了IC50和PIC50的值,并对原始特征进行指标分类,并结合遗传算法进行优化,进一步选取抗乳腺癌候选药物有益的特征及其最优取值范围。
-
-
-
-
-
-
-
-