-
公开(公告)号:CN115269770A
公开(公告)日:2022-11-01
申请号:CN202210661002.X
申请日:2022-06-13
Applicant: 华南理工大学
IPC: G06F16/33 , G06F16/35 , G06F16/36 , G06F40/211 , G06F40/216 , G06F40/284 , G06K9/62
Abstract: 本发明公开了一种基于方面观点词情感对齐的跨领域情感分析方法及装置,其中方法包括:构建跨领域情感分析模型,所述跨领域情感分析模型包括预训练BERT编码器、GCN自动编码器以及情感分类器;通过预训练BERT编码器获取第一特征向量,通过GCN自动编码器获取包含背景常识和方面观点词情感对齐的第二特征向量;拼接两个编码器产生的特征向量作为句子的向量输入情感分类器,计算输入文本所有可能极性的概率,选择概率最大的情感标签作为最终的预测情感标签,完成情感分析任务。本发明利用对抗训练将源领域和目标领域数据映射到同一分布空间,从而提高模型从源领域迁移到目标领域的实体预测效果,可广泛应用于自然语言处理技术领域。
-
公开(公告)号:CN113010655A
公开(公告)日:2021-06-22
申请号:CN202110288495.2
申请日:2021-03-18
Applicant: 华南理工大学
IPC: G06F16/332 , G06F16/33 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种机器阅读理解的回答与干扰项生成方法、装置,方法是将机器阅读理解领域中的干扰项生成与机器问答任务结合起来,通过联合学习机制同时促进生成答案和干扰项这两个任务的性能提升。本发明能实现良好的机器问答,在给定一篇文章和一个关于此文章的问题的情况下,能够准确地回答相关问题并且生成答案对应的干扰项,可广泛应用于机器阅读领域或者智能出题领域。
-
公开(公告)号:CN112541355A
公开(公告)日:2021-03-23
申请号:CN202011443134.2
申请日:2020-12-11
Applicant: 华南理工大学
IPC: G06F40/295 , G06N3/04
Abstract: 本发明涉及一种实体边界类别解耦的少样本命名实体识别方法及系统,其方法包括步骤:S1、通过共享的词嵌入层,将句子中的单词映射为词嵌入向量;S2、通过双向长短期记忆网络提取出特征向量;S3、利用边界检测模块获取查询集实体边界标签预测结果,并提取出实体块;S4、基于原型网络获取实体块类别原型表示;S5、进行度量计算,根据度量结果进行分类,获取查询集实体块在各类别上的概率分布;S6、联合训练模型;S7、完成少样本命名实体识别。本发明通过实体边界检测获取实体块表示,基于原型网络使用支持集少量样本计算类别原型,实现了获取类别区分能力更强的原型网络类别原型表示,提高了少样本命名实体识别任务的准确率。
-
公开(公告)号:CN112380874A
公开(公告)日:2021-02-19
申请号:CN202011076361.6
申请日:2020-10-10
Applicant: 华南理工大学
IPC: G06F40/35 , G06F40/211 , G06F40/284 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于图卷积网络的多人对话语篇分析方法,包括以下步骤:S1、通过句子编码模块将对话中的句子映射为局部句子向量;S2、通过图卷积网络捕捉句子之间的语义关系,输出全局句子向量;S3、通过拼接句子向量和全局句子向量,输入到语义连接预测模块预测连接的目标句子;S4、通过拼接句子向量和全局句子向量,输入到语义分类模块获取句子间的语义关系;S5、通过模型训练语义连接预测和语义关系分类任务,获取模型参数;S6、模型训练完毕后,输入整个对话的句子,输出句子间存在的语义连接及语义关系,完成多人对话的语篇分析。本发明利用图卷积网络捕捉多人对话的句子间存在的语义关系,从而提高语篇分析的性能。
-
公开(公告)号:CN112115687A
公开(公告)日:2020-12-22
申请号:CN202010872496.7
申请日:2020-08-26
Applicant: 华南理工大学
IPC: G06F40/166 , G06F40/284 , G06F40/30
Abstract: 本发明公开了一种结合知识库中的三元组和实体类型的生成问题方法,所述方法一种基于注意力机制的神经网络模型:所述神经网络模型的输入为表示重构过的三元组的词向量序列,输出是通过处理词向量序列得到的一组用来表示问题的词向量序列。首先,利用三元组中的头实体和尾实体对应的实体类型对三元组进行重构,然后利用预训练好的Glove词嵌入获得表示重构得到的新三元组的词向量序列,之后利用一个基于注意力机制的门机制循环神经网络编码输入的词向量序列,再利用另一个基于注意力机制的门机制循环神经网络解码通过编码器得到的三元组的表示,最后处理解码器输出的词向量序列得到生成的问题。本发明结合了知识库中的三元组及三元组中的头实体和尾实体对应的实体类型的信息,通过一种基于注意力机制的神经网络模型得到一个语法上更流畅、与输入的三元组更相关的问题。
-
公开(公告)号:CN111723563A
公开(公告)日:2020-09-29
申请号:CN202010391845.3
申请日:2020-05-11
Applicant: 华南理工大学
IPC: G06F40/237 , G06F40/30
Abstract: 本发明公开了一种基于词共现网络的主题建模方法,包括步骤:根据给定的语料库或者文本集合构建词共现网络;根据得到的词共现网络构造出一个新的文档集合;将得到的新的文档集合输入到一个标准主题模型LDA的Gibbs sampling算法中,得到新文档集合对应的文档-主题矩阵和主题-词矩阵。本发明不需要依赖任何的外部知识,避免了收集额外知识的精力,仅仅是利用数据集本身包含的信息去改善主题模型的结果。
-
公开(公告)号:CN111460079A
公开(公告)日:2020-07-28
申请号:CN202010150731.X
申请日:2020-03-06
Applicant: 华南理工大学
IPC: G06F16/31 , G06F40/295 , G06F40/216
Abstract: 本发明公开了一种基于概念信息和词权重的主题生成方法,包括步骤:对于一个文本语料库,识别出文本语料库中每一篇文档中的实体;对于识别出的所有实体,在知识库中检索每个实体的概念信息;对语料库中的每一篇文档进行预处理;使用DCEP词权重方案对语料库中的每一篇文档进行处理,并构建成为新的语料库;将新的语料库输入到标准的LDA主题模型中,生成主题。本发明通过为主题模型引入基于概念信息的词权重方案,有利于主题模型生成更加连贯的主题。
-
公开(公告)号:CN111444720A
公开(公告)日:2020-07-24
申请号:CN202010235663.7
申请日:2020-03-30
Applicant: 华南理工大学
IPC: G06F40/295 , G06F40/253 , G06N3/04
Abstract: 本发明公开了一种英文文本的命名实体识别方法,包括步骤:收集英文文本的命名实体识别的数据集;对收集的数据集进行预处理,标注数据集中每个词语的词性;对于输入到模型的语句,获得语句中的词语信息,包括词语的词向量、字符序列信息、词性序列信息;将获得的三种词语信息拼接起来,输入到LSTM网络中,获得LSTM网络的输出的特征;将得到的LSTM网络的输出特征输入到CRF中,获得最终预测的实体。本发明考虑了输入文本中词语的词性信息,通过在模型中加入词性信息,可以提升模型的性能。
-
公开(公告)号:CN111125364A
公开(公告)日:2020-05-08
申请号:CN201911345927.8
申请日:2019-12-24
Applicant: 华南理工大学
IPC: G06F16/35 , G06F40/211 , G06N3/04
Abstract: 本发明公开了一种基于ERNIE的远程监督关系抽取的降噪方法,包括步骤:通过将训练集中的各个包中的所有的句子合并成长句并打上相应包的关系标签;将得到的新的长句数据集去训练一个基于预训练语言模型ERNIE的二分类器;利用训练后的二分类器对训练集进行重构,得到新的降噪后的训练集;用新的降噪后的训练集去训练基于预训练语言模型ERNIE的PCNN_ATT模型;将测试集合并成长句,再用训练好的模型对测试集中的包的标签进行预测。本发明能够使得关系预测的效果得到显著的提升。
-
公开(公告)号:CN109783725A
公开(公告)日:2019-05-21
申请号:CN201811536137.3
申请日:2018-12-15
Applicant: 华南理工大学
IPC: G06F16/9535
Abstract: 本发明公开了一种融入用户好奇心机制的推荐方法,包括以下步骤:根据历史纪录计算新颖度和冲突度,然后通过加权求和得到刺激度,根据历史纪录的刺激度列表,训练每一个用户各自的冯特曲线;使用基于准确率的推荐方法进行学习,得到相关度列表;根据冯特曲线对物品计算其对用户的好奇心,进行排序,得到每个用户的好奇心列表;最后使用波达计数法对两个列表进行排序。
-
-
-
-
-
-
-
-
-