基于情感语义对抗的跨语言情感分类方法

    公开(公告)号:CN113901205B

    公开(公告)日:2024-09-27

    申请号:CN202111043204.X

    申请日:2021-09-07

    摘要: 本发明涉及基于情感语义对抗的跨语言情感分类方法,属自然语言处理领域。本发明包括:构建汉越疫情相关社交媒体评论的数据集;将句子以及句子中情感词拼接,用卷积神经网络对拼接后的句子分别进行联合表征,分别获得单语语义空间下的情感语义表征;其次,通过对抗网络,在双语情感语义空间将带标签数据与无标记数据的情感语义表征进行对齐;最后将句子与情感词最显著的表征进行拼接,得到情感倾向性分析结果。本发明通过融合情感信息信作为背景信息实现了跨语言情感倾向性分析,从获取的舆情数据中为低资源数据获得情感分类结果,为后续的文本分类及低资源语言细粒度情感分析提供了支撑。

    基于枢轴优化自训练的中缅平行语料构建方法

    公开(公告)号:CN118569273A

    公开(公告)日:2024-08-30

    申请号:CN202410806381.6

    申请日:2024-06-21

    摘要: 本发明涉及基于枢轴优化自训练的中缅平行语料构建方法。利用少量有标注的中缅句对初始化机器翻译模型;将英语到缅甸语的平行语料拆分为英语和缅甸语单语语料;通过中‑英机器翻译模型将英语语料翻译为中文,使用初始化后的模型将缅甸语语料翻译为中文,从而构建两份缅甸语到中文的平行语料;按照生成的语料顺序每次选取20万条平行句对,通过LASER平行句对评分工具以及余弦相似度算法对生成的中缅平行语料进行评分;筛选并保留分数最高的10万条平行语料,至多保留80万条平行语料继续参与模型训练,直到所有生成的语料都参与了筛选过程。本发明提高模型在缅甸语到中文的翻译性能,最终解决了中文到缅甸语机器翻译平行语料匮乏的问题。

    基于要素图注意力的案件舆情多文档生成式摘要方法

    公开(公告)号:CN114969304B

    公开(公告)日:2024-08-23

    申请号:CN202210499501.3

    申请日:2022-05-09

    摘要: 本发明涉及基于要素图注意力的案件舆情多文档生成式摘要方法,属于自然语言处理领域。本发明包括:构建案件舆情多文档摘要数据集;首先通过基于图注意力机制融入案件要素的方法,构建一个由句子节点、词节点以及案件要素节点组成的异构图,来捕捉句子间的关联关系,最后对句子进行分类,生成摘要。本发明采用图注意力表示不同节点的方式,通过对句子节点与要素节点之间的关联性,采用图注意力机制和更新主任务模型和辅助模型的参数。本发明通过融合案件要素并进行有效筛选包含较多关键词的句子,实现了舆情摘要的生成式工作,从获取的案件舆情数据中抽取出摘要,为后续快速了解案情、掌握和监控舆情的发展态势起到重要支撑作用。

    基于分化适配器的汉老泰多语言神经机器翻译方法

    公开(公告)号:CN118395998B

    公开(公告)日:2024-08-16

    申请号:CN202410818685.4

    申请日:2024-06-24

    摘要: 本发明涉及基于分化适配器的汉老泰多语言神经机器翻译方法,属自然语言处理技术领域。汉‑老‑泰多语言机器翻译框架通过模型参数共享能有效共享相似语言知识提升老‑汉和泰‑汉翻译性能,但引入模型参数共享会导致不同语言间参数相互干扰问题。针对汉‑老‑泰多语言机器翻译框架中的参数干扰降低机器翻译质量问题,本发明包括数据处理和模型预训练、进行基于分化适配器的汉‑老‑泰多语言神经机器翻译模型微调、构建基于分化适配器的汉‑老‑泰多语言神经机器翻译装置三部分。本发明对输入的泰语或老挝语进行目标语言的翻译,本发明有效提升了汉‑老‑泰多语言机器翻译质量。

    基于半监督的敏感舆情短语生成方法

    公开(公告)号:CN113901809B

    公开(公告)日:2024-08-09

    申请号:CN202111085498.2

    申请日:2021-09-16

    摘要: 本发明涉及基于半监督的敏感舆情短语生成方法,本发明首先利用无监督方法对数据进行伪标注并预训练一个短语生成模型;另外,为了更好的让模型学习到某领域主题相关的敏感短语,进一步提出结合词嵌入表征和词袋表征的主题建模方法,提取敏感的潜在主题特征;最后结合短语生成模型和主题模型,基于少量标注数据进行微调,得到敏感舆情短语生成模型。在构建的敏感舆情数据集和KP20k数据上的实验表明,本发明的方法相比基础模型在F1@5值上提高3%。

    基于上下文的汉越跨语言句嵌入方法

    公开(公告)号:CN114861631B

    公开(公告)日:2024-06-21

    申请号:CN202210544674.2

    申请日:2022-05-19

    摘要: 本发明涉及基于上下文的汉越跨语言句嵌入方法,属自然语言处理领域。本发明首先构建训练数据集;再利用mBERT模型获取训练数据集中对应的汉越上下文跨语言句嵌入,并基于孪生网络结构搭建线性微调层,对获取到的汉越上下文跨语言句嵌入进行重构,并以此构建对比损失用于反向优化微调层。本发明通过构建融合孪生网络结构的线性微调层对mBERT模型中获取到的汉越上下文跨语言句嵌入进行重构,有效缓解了mBERT模型中因汉越句级平行语料稀缺及语法差异较大导致的汉越跨语言句嵌入语义对齐效果不佳的问题。实验结果表明,本发明的准确度均取得了较大提升,提高汉越嵌入分布间的重合度,改善汉越低资源上下文跨语言句嵌入的语义对齐效果。

    基于源语言句法增强解码的神经机器翻译方法

    公开(公告)号:CN113901847B

    公开(公告)日:2024-05-24

    申请号:CN202111084535.8

    申请日:2021-09-16

    摘要: 本发明涉及源语言句法增强解码的神经机器翻译方法,属于自然语言处理领域。本发明包括:解析源语言句子得到句法关系;使用句法感知的自注意力机制获取源语言句子和其句法相关部分的特征;通过交叉注意力网络提取源语言句子表征和句法相关表征中的信息,共同指导目标语言的生成;最后使用线性变换和softmax函数预测当前序列位置的词汇。本发明在有效利用人工标注的双语平行语料资源的同时,还能显式利用单语语料的句法信息;单语句法知识是理解语义和构建语言的重要依据,解决了神经网络机器翻译模型不能充分挖掘双语平行语料中有效信息这一难题。

    一种基于词性约束的越南语拼写纠错语料构建方法

    公开(公告)号:CN117973370A

    公开(公告)日:2024-05-03

    申请号:CN202410159473.X

    申请日:2024-02-04

    发明人: 李英 陈鑫 余正涛

    摘要: 本发明涉及一种基于词性约束的越南语拼写纠错语料构建方法。本发明利用已有的越南语语音识别模型模拟现实场景中出现的拼写错误,构建原始的越南语拼写纠错语料;然后根据原始纠错语料中的错误分布,计算出各类词性出现错误的数量及比例;接着,通过网络爬虫收集越南语文本数据,并对其进行筛选和预处理构建更干净的越南语单语语料;最后,利用错误的词性概率指导混淆集对单语语料进行不同方式的替换操作,并通过联合训练的方式筛选出更符合实际错误分布的越南语拼写纠错语料,从而有效解决越南语拼写纠错语料匮乏的问题。

    一种基于子词嵌入对齐的汉越依存句法分析方法

    公开(公告)号:CN117973364A

    公开(公告)日:2024-05-03

    申请号:CN202410159266.4

    申请日:2024-02-04

    摘要: 本发明涉及基于子词嵌入对齐的汉越依存句法分析方法,属自然语言处理领域。本发明主要利用汉语和越南语的子词对齐特征改善越南语预训练语言模型本身表征能力相对较弱的问题。本发明利用对齐矩阵将汉语子词映射到越南语子词类似的表示空间;接着,筛选出与每个越南语子词最相似的十个汉语子词,并对其进行加权求和,将求和的结果与原始越南语子词表示进行融合作为越南语子词的嵌入表示;最后,将获得的越南语子词表示与XLM‑RoBERTa预训练模型得到的原始越南语词表示相结合作为输入越南语句子的最终词嵌入表示,通过经典的双仿射依存句法分析模型获得越南语句子所对应的依存句法树。本发明为越南语依存句法分析带来了显著的性能提升。

    基于预训练语言模型及双向交互注意力的平行句对抽取方法

    公开(公告)号:CN113901831B

    公开(公告)日:2024-04-26

    申请号:CN202111082587.1

    申请日:2021-09-15

    摘要: 本发明涉及预训练语言模型及双向交互注意力的平行句对抽取方法,属于自然语言处理领域。本发明包括:构建中越可比语料数据集;使用预训练语言模型分别获得源语言和目标语言的双语表征,然后基于双向交互注意力机制实现跨语言特征的空间语义对齐;最后基于多视角特征融合后的语义表征实现跨语言句对的关系判定,根据深层语义一致性实现平行句对抽取。实验结果表明,本发明所提方法在包含噪声的数据背景下可以有效的识别语义一致的双语平行句,提取出的双语平行句为后续的机器翻译提供了支撑。