-
公开(公告)号:CN111460824B
公开(公告)日:2022-06-14
申请号:CN202010237531.8
申请日:2020-03-30
Applicant: 华南理工大学
IPC: G06F40/295 , G06F40/216 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于对抗迁移学习的无标注命名实体识别方法,构建无标注命名实体识别模型,包括步骤:输入源领域或者目标领域的文本,并映射为词嵌入向量;将词嵌入向量输入到双向长短期记忆网络中提取出特征向量;将特征向量输入到对抗判别器,将源领域和目标领域的数据映射到同一数据分布空间中;将特征向量输入到条件随机场中,计算输入文本所有可能的标签序列的概率,选择概率最大的标签序列作为最终的预测标签;通过联合训练命名实体识别任务和对抗训练任务,得到最佳的模型参数;输入目标领域的数据,通过CRF层输出预测标签。本发明通过对抗判别器可以将源领域和目标领域数据映射到同一分布的空间内,从而提高目标领域数据的实体预测效果。
-
公开(公告)号:CN111126069B
公开(公告)日:2022-03-29
申请号:CN201911391112.3
申请日:2019-12-30
Applicant: 华南理工大学
IPC: G06F40/295 , G06F40/30 , G06F16/9536 , G06N3/04
Abstract: 本发明公开了一种基于视觉对象引导的社交媒体短文本命名实体识别方法,包括步骤:建立社交媒体短文本的文本描述数据集,并提供和文本描述相关的视觉图像数据;对视觉图像数据进行对象检测,并将检测出的视觉对象类别进行视觉词语义的提取;对原始文本描述进行语义提取,并对文本语义进行文本的特征提取;计算视觉词语义和文本特征的相似性,对视觉词语义进行加权求和;计算多模态语义与原始文本特征的相关性,得到最终的词语义向量;将最终的词语义向量输入到条件随机场中,进行实体边界和实体类别的识别,得到的结果为识别出的命名实体。本发明能够利用视觉对象信息进行实体类型的判定,对缺少语义信息的社交媒体短文本数据起到了补充作用。
-
公开(公告)号:CN113449118A
公开(公告)日:2021-09-28
申请号:CN202110732648.8
申请日:2021-06-29
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于标准知识图谱的标准文档冲突检测方法及系统,所述方法首先对标准文档的非结构化文本内容进行结构化抽取,形成标准知识图谱。基于该标准知识图谱,通过文本相似度匹配,多实体列表匹配等技术找出若干标准知识图谱间的冲突实体,实现标准文档间的冲突检测。所述方法具有良好的标准文档冲突检测能力,在给定若干标准文档下,能够对各个标准文档中的知识进行结构化,形成若干标准知识图谱,并通过标准知识图谱实现标准文档冲突检测,可广泛应用于标准编写领域。
-
公开(公告)号:CN110222723B
公开(公告)日:2021-07-20
申请号:CN201910397057.2
申请日:2019-05-14
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于混合模型的足球比赛首发预测方法,包括步骤:收集球员比赛数据,对数据进行预处理;构建球员各项比赛数据的统计特征;分别构建并训练逻辑回归模型、Xgboost模型、朴素贝叶斯模型,输入球队内所有球员的比赛数据,得到每个球员未来一场比赛首发上场的概率;对所述三个模型赋予不同权重,根据三种模型得到的概率,采用加权投票法对球员获得首发上场的情况进行投票,取得票最多的前11个球员,为最终预测未来一场比赛首发上场的球员。本发明采用机器学习中的混合模型,可以全面而有效地通过球员的历史比赛数据对其未来首发上场情况做出预测,能够很好地帮助教练和球队进行分析和备战。
-
公开(公告)号:CN112507931A
公开(公告)日:2021-03-16
申请号:CN202011489925.9
申请日:2020-12-16
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于深度学习的信息图表序列检测方法及系统,该方法步骤包括:获取信息图表以及信息图表中所有元素的元素类型和元素属性;根据信息图表中的元素,获取包含不同元素的截图;根据信息图表中的元素、包含不同元素的截图,训练识别信息图表中信息块的深度卷积网络;根据信息图表、信息图表中的元素、包含不同元素的截图和训练后的深度卷积网络,确定待识别信息图表中的信息块;根据待识别信息图表中的信息块识别结果,确定待识别信息图表中的信息序列。本发明对于信息图表的信息序列识别具有较高的准确性和鲁棒性。
-
公开(公告)号:CN112507137A
公开(公告)日:2021-03-16
申请号:CN202011500258.X
申请日:2020-12-17
Applicant: 华南理工大学
IPC: G06F16/36 , G06F16/33 , G06F40/289 , G06N3/04
Abstract: 本发明公开了一种开放环境下基于粒度感知的少样本关系抽取方法及应用,该方法包括:输入一个句子及存在于句子中的两个实体,输出该实体对在对应句子中所属的预定义关系或者判断出其不属于任何一个预定义关系;对每个单词采用预训练的词嵌入模型进行初始化,并采用卷积神经网络编码得到句子低维向量表示并映射到同一个高维向量空间中,以支持集的中心点作为每个关系类别的原型表示;通过衡量查询实例到各个关系原型之间距离来度量相似程度,得到查询实例的所属关系类别;对每个关系在空间中度量出其原型区域,判断查询实例是否属于预先定义的关系类别中。本发明适应开放动态环境场景,提高关系抽取的预测效果。
-
公开(公告)号:CN111563146A
公开(公告)日:2020-08-21
申请号:CN202010253345.3
申请日:2020-04-02
Applicant: 华南理工大学
IPC: G06F16/332 , G06F40/295 , G06F40/211 , G06F40/284 , G06N3/04 , G06N5/04
Abstract: 本发明公开了一种基于推理的难度可控问题生成的方法,包括:识别文本中的命名实体,根据设定的实体连结关系构建实体网络图;分别通过词嵌入方法和难度嵌入矩阵对自然语言文本编码得到其语义表示和难度表示;将得到的语义表示通过双向LSTM层进行编码,并利用图神经网络得到新的含有推理的上下文状态表示,随后使用注意力机制辅助解码器得到词语的推理生成概率;将难度嵌入矩阵使用难度等级控制变量经过高斯核层得到难度生成概率;将得到的推理生成词概率和难度生成词概率整合得到最终的生成概率,进而生成问题序列。本发明所定义的问题生成难度等级更具有人类客观逻辑性,将多跳推理融入自然语言文本的表示中,生成更加符合所定义难度的多样化问题。
-
公开(公告)号:CN111160343A
公开(公告)日:2020-05-15
申请号:CN201911405977.0
申请日:2019-12-31
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于Self-Attention的离线数学公式识别方法,包括:对输入的数学公式图像进行预处理;编码阶段:对数学公式图像进行特征提取;将提取的特征的隐向量转换为多头的自注意力机制输入所需的维度;对提取的特征的隐向量进行编码,获得特征结果向量;解码阶段:依次输入字符到嵌入层,获得嵌入向量;将特征结果向量以及嵌入向量输入到网络块,获取输入字符的结果向量;获取输入字符的结果向量对应的的概率向量,找出概率向量中最大概率值索引对应的字符作为生成的字符;循环解码阶段,获得数学公式图像对应的latex字符序列。本发明仅仅使用注意力机制,不仅避免了LSTM固有的长距离依赖的问题,而且极大提升了模型的训练效率和识别准确率。
-
公开(公告)号:CN111159556A
公开(公告)日:2020-05-15
申请号:CN201911405967.7
申请日:2019-12-31
Applicant: 华南理工大学
IPC: G06F16/9535
Abstract: 本发明公开了一种基于用户好奇心的贝叶斯个性化排序推荐方法,包括步骤:使用有好友关系的数据集,遍历数据集中每一个用户的历史数据,对于数据集中的每一个用户u,构建用户u的正向物品集合Pu,令用户u感到好奇的物品集合Cu以及用户u的负向物品集合Nu;提出优化排序准则,获取用户矩阵P和物品矩阵Q;对于每一个用户u,随机从Pu、Cu、Nu中选择物品组成物品对(positive,negative)和(curiosity,negative)进行训练,在每一次的训练迭代中不断地更新用户矩阵P和物品矩阵Q;对用户u所有没有过反馈的物品进行预测评分,选取分数最高的TopN个物品进行推荐。
-
公开(公告)号:CN109614484A
公开(公告)日:2019-04-12
申请号:CN201811331547.4
申请日:2018-11-09
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于分类效用的文本聚类方法,包括:(1)对输入数据集进行预处理;(2)将文本转化为特征向量;(3)计算两两向量之间的夹角余弦值,比较两者的相似度;(4)选择相似度最高的两个类进行合并,计算新类与其他类的相似度;(5)计算合并后分类效用的值,并将该值与合并后的聚类结果分别存储在两个列表中;(6)重复步骤(4)和(5),直至聚类个数为1或者任意两个类之间相似度为0;(7)找到分类效用的最大值,输出该值所对应的聚类结果;(8)对文本进行第二次聚类,输出分类效用值最大时所对应的聚类结果。本发明具有使得机器对数据的处理过程更加符合人类的认知、帮助用户挖掘潜在知识规律的优点。
-
-
-
-
-
-
-
-
-