-
公开(公告)号:CN109815815A
公开(公告)日:2019-05-28
申请号:CN201811576219.0
申请日:2018-12-22
申请人: 昆明理工大学
摘要: 本发明涉及一种基于度量学习和支持向量机相集成的行人再识别方法,属于图像处理、模式识别技术领域。本发明首先生成带有行人标签信息的行人特征矩阵;对度量行人距离的非线性空间M做处理;设置支持向量机内用到的行人标签信息;支持向量机引入约束变量,再把支持向量机作为非线性空间的约束条件;对非线性空间M的约束条件进行缩放处理;找到投影矩阵和分类器的最优解,用度量学习和支持向量机相集成的识别模型进行行人识别,得到识别率。本发明集成了度量学习和支持向量机。和已有方法相比,本发明所提出的方法有效的挖掘、利用了行人数据集中的标签信息,使行人匹配率得到有效的提升。
-
公开(公告)号:CN106250367B
公开(公告)日:2019-04-09
申请号:CN201610599528.4
申请日:2016-07-27
申请人: 昆明理工大学
摘要: 本发明涉及基于改进的Nivre算法构建越南语依存树库的方法,属自然语言处理技术领域。本发明首先构建初始训练语料、扩展语料和测试语料;然后利用构建的初始训练语料基于改进的Nivre算法训练出两个依存分析弱学习器S1和S2作为两个充分冗余的视图;再利用训练出的两个弱学习器S1和S2对扩展语料进行依存分析并构建越南语依存树库模型;最后对测试语料进行依存分析测试并最终构建出越南语依存树库。本发明能够对越南语的句法分析、机器翻译和信息获取等上层应用提供有力支撑;能有效避免了人工标记越南语句子依存关系的过程,节省了人力物力的时间;能够有效利用大量无标记的越南语句子级语料提升依存分析的准确率。
-
公开(公告)号:CN106250367A
公开(公告)日:2016-12-21
申请号:CN201610599528.4
申请日:2016-07-27
申请人: 昆明理工大学
CPC分类号: G06F17/271 , G06F17/30731
摘要: 本发明涉及基于改进的Nivre算法构建越南语依存树库的方法,属自然语言处理技术领域。本发明首先构建初始训练语料、扩展语料和测试语料;然后利用构建的初始训练语料基于改进的Nivre算法训练出两个依存分析弱学习器S1和S2作为两个充分冗余的视图;再利用训练出的两个弱学习器S1和S2对扩展语料进行依存分析并构建越南语依存树库模型;最后对测试语料进行依存分析测试并最终构建出越南语依存树库。本发明能够对越南语的句法分析、机器翻译和信息获取等上层应用提供有力支撑;能有效避免了人工标记越南语句子依存关系的过程,节省了人力物力的时间;能够有效利用大量无标记的越南语句子级语料提升依存分析的准确率。
-
公开(公告)号:CN115048947B
公开(公告)日:2024-08-09
申请号:CN202210668398.0
申请日:2022-06-14
申请人: 昆明理工大学
IPC分类号: G06F40/58 , G06N3/0455 , G06N3/092 , G06N3/084
摘要: 本发明提供基于数据选择网络的多领域自适应神经机器翻译方法。现有方法通常混合多个领域数据在单个模型上实现多领域翻译,但通常忽略通用领域和特定领域二者训练数据极不平衡现象导致的模型翻译性能下降问题。在此本发明先在基于Transformer的架构下添加一个数据选择网络,同时在利用双层优化技术的基础上通过最小化风险训练来同步更新数据选择网络和模型参数。本发明对通用领域数据和多个特定领域数据做到了有效平衡,解决了对于多个特定领域数据混合会造成模型翻译性能下降的问题。实验结果表明:在多领域神经机器翻译中,本发明从英语到德语和汉语到英语的BLEU值相比基线模型,分别平均提高了1.55和1.09。
-
公开(公告)号:CN114925708B
公开(公告)日:2024-08-09
申请号:CN202210567469.8
申请日:2022-05-24
申请人: 昆明理工大学
IPC分类号: G06F40/58 , G06F40/211 , G06F40/289 , G06F16/35 , G06F18/24 , G06F18/25 , G06N3/0455 , G06N3/048 , G06N3/088
摘要: 本发明涉及融合无监督依存句法的泰汉神经机器翻译方法,属自然语言处理领域。本发明包括步骤:首先无监督的获取泰语依存句法结构知识;然后利用依存距离惩罚机制将泰语结构信息中的依存父词信息进行处理,从而减少所获取的依存知识引入的噪声对翻译性能的干扰;最后利用基于依存感知注意力机制将处理后的依存信息融入transformer翻译模型,以此提升泰汉神经机器翻译的性能。本发明能针对无监督获取的泰语依存句法知识质量不高的现状,通过依存距离惩罚来减少错误信息引入的噪声对翻译效果的影响,从而有效融入泰语句法结构知识获得更符合句法约束的译文,以弥补平行语料稀缺引起的翻译质量低下的问题,从而提升泰汉机器翻译性能。
-
公开(公告)号:CN115146629B
公开(公告)日:2024-07-05
申请号:CN202210507391.0
申请日:2022-05-10
申请人: 昆明理工大学
IPC分类号: G06F40/284 , G06F40/289 , G06F40/30 , G06F40/194 , G06N3/088
摘要: 本发明公开了一种基于对比学习的新闻文本与评论相关性分析方法,首先对文本进行分词和词性标注等处理,生成候选关键词,计算候选关键词与文本的相似度,提取关键词;文本的关键词序列与标题进行拼接得到新闻文本的表示;关键词和标题序列传递给BERT预训练模型的encoder两次,通过应用独立采样的dropoutmask获得两个作为正样本的嵌入,同时同一个batch里剩余新闻的两次嵌入作为负样本;交叉熵和相对熵损失函数对预训练模型进行微调。本发明提出的方法对于新闻文本与评论的相似度计算有很好的效果,通过合适的关键词数量与标题拼接可以提高相似度计算的准确率;在公共数据集上实验验证,该方法不仅适用于新闻文本与评论数据集,而且也具有一定的泛化能力。
-
公开(公告)号:CN112507733B
公开(公告)日:2023-04-18
申请号:CN202011229881.6
申请日:2020-11-06
申请人: 昆明理工大学
IPC分类号: G06F40/58 , G06F40/289 , G06F40/211 , G06N3/0455 , G06N3/0442 , G06N3/047 , G06N3/0499 , G06N3/08
摘要: 本发明涉及基于依存图网络的汉越神经机器翻译方法,属于自然语言处理技术领域。本发明首先从网站爬取汉越平行语料,将获取的汉越双语语料分别利用依存句法解析工具进行依存句法解析。其次将获取的源语言依存句法解析树利用图编码器转化为依存图,并对其编码获取依存图结构信息,再将依存图结构信息送入编码端与源语言序列信息融合,利用这种融合信息送入解码端指导模型翻译。本发明通过融入依存句法信息,将依存关系转化为依存图,利用图神经网络实现对依存图的全局结构化编码,给翻译模型提供了更丰富的全局依存信息,对具有句法差异的汉越语言对的翻译效果提升提供了一定的帮助。
-
公开(公告)号:CN110472252B
公开(公告)日:2022-12-13
申请号:CN201910751450.7
申请日:2019-08-15
申请人: 昆明理工大学
摘要: 本发明涉及基于迁移学习的汉越神经机器翻译的方法,属于自然语言处理技术领域。本发明包括步骤:语料收集与预处理:收集并预处理汉越、英越、汉英句对的平行语料;使用汉英和英越平行语料生成汉英越三语平行语料;训练汉英神经机器翻译模型与英越神经机器翻译模型,并使用预训练模型的参数初始化汉越神经机器翻译模型的参数;使用汉越平行语料对初始化后的汉越神经机器翻译模型进行微调训练,得到汉越神经机器翻译模型来进行汉越神经机器翻译。本发明能够有效地提升汉越神经机器翻译的性能。
-
公开(公告)号:CN115170216A
公开(公告)日:2022-10-11
申请号:CN202210050381.9
申请日:2022-01-17
申请人: 昆明理工大学
IPC分类号: G06Q30/06 , G06F40/30 , G06F40/253 , G06F16/36
摘要: 本发明公开了一种基于知识图谱融入评论情感和评分的商品推荐方法,首先将数据集中获取知识图谱、用户交互数据和评论数据,然后通过模型获取用户评论文本的情感倾向,应用知识图谱嵌入算法将知识图谱编码为低秩嵌入,通过知识图谱的嵌入、用户交互数据和评论情感和评分得到用户的推荐结果并为推荐结果作出解释;在Amazon 5‑core的Clothing Shoes and Jewelry和Cell Phones and Accessories两个数据集上进行了实验验证,实验结果证明了采用本发明方法可以表现更加出色准确率;本方法提出的基于知识图谱的商品推荐方法,不但能够最大程度的吸收知识图谱丰富的语义信息,从而实现推荐性能的提升,还能充分利用知识图谱的关系知识,增强推荐结果的可解释性。
-
公开(公告)号:CN115146629A
公开(公告)日:2022-10-04
申请号:CN202210507391.0
申请日:2022-05-10
申请人: 昆明理工大学
IPC分类号: G06F40/284 , G06F40/289 , G06F40/30 , G06F40/194 , G06N3/08
摘要: 本发明公开了一种基于对比学习的新闻文本与评论相关性分析方法,首先对文本进行分词和词性标注等处理,生成候选关键词,计算候选关键词与文本的相似度,提取关键词;文本的关键词序列与标题进行拼接得到新闻文本的表示;关键词和标题序列传递给BERT预训练模型的encoder两次,通过应用独立采样的dropoutmask获得两个作为正样本的嵌入,同时同一个batch里剩余新闻的两次嵌入作为负样本;交叉熵和相对熵损失函数对预训练模型进行微调。本发明提出的方法对于新闻文本与评论的相似度计算有很好的效果,通过合适的关键词数量与标题拼接可以提高相似度计算的准确率;在公共数据集上实验验证,该方法不仅适用于新闻文本与评论数据集,而且也具有一定的泛化能力。
-
-
-
-
-
-
-
-
-