融合关键词和语义特征的汉越文本相似度计算方法

    公开(公告)号:CN112257453A

    公开(公告)日:2021-01-22

    申请号:CN202011006911.7

    申请日:2020-09-23

    摘要: 本发明涉及融合关键词和语义特征的汉越文本相似度计算方法,属于自然语言处理技术领域。本发明包括步骤:提取汉语、越南语文章的关键词,将越南语关键词翻译为中文,计算出两篇文章中的共现关键词,得到词的相似信息;然后利用共现关键词抽取出与其紧密相关的句子进行拼接来表征文本,并去除无关的句子以压缩文本;再利用知识蒸馏训练出汉越BERT模型对压缩后的文本进行编码,以获得上下文语义特征;最后将词的相似信息和上下文语义特征融合实现文本相关性判断。本发明提升了汉‑越文本相似度计算的准确率。

    融合句法结构及Tree-LSTM的汉越平行句对抽取方法

    公开(公告)号:CN112232090A

    公开(公告)日:2021-01-15

    申请号:CN202010978713.0

    申请日:2020-09-17

    摘要: 本发明涉及融合句法结构及Tree‑LSTM的汉越平行句对抽取方法。本发明首先预训练汉越双语词向量,将汉越双语映射到同一语义空间中,考虑汉越句子结构具有差异性,通过依存句法树将句子序列结构转化为依存树结构,通过Tree‑LSTM捕获句子的句法结构信息,并将汉越双语句子的词性信息作为特征向量拼接到句子语义向量中,最后将该向量输入至全连接层训练出汉越平行句对分类器。本发明利用深度学习方法,在大量数据中自动学习句子表示规则,解决了传统的平行句对抽取任务需要耗费大量人力资源用以设计特征的问题。同时,该发明考虑并解决了汉越语言的结构差异性特点影响抽取模型性能的问题,提升了平行句对抽取模型的准确率。

    基于案件要素指导及深度聚类的新闻与案件相关性分析方法

    公开(公告)号:CN111831820A

    公开(公告)日:2020-10-27

    申请号:CN202010166279.6

    申请日:2020-03-11

    摘要: 本发明涉及基于案件要素指导及深度聚类的新闻与案件相关性分析方法,首先抽取出重要的句子表征文本;其次利用案件要素对案件进行表征,用来初始聚类中心,指导聚类的搜索过程;最后选用卷积自编码器获得文本表征,利用重构损失和聚类损失联合训练网络,使文本的表征更接近于案件,并将文本表征和聚类过程统一到同一框架中,交替更新自编码器参数及聚类模型参数,实现文本聚类。本发明针对当前聚类算法对于新闻与案件相关性分析任务,缺乏有效的指导信息,导致聚类发散,降低了结果的准确性这一问题,充分发挥了案件要素的在聚类过程中以及对文本向量化表征的指导作用,有效提升了聚类结果的准确性。

    基于词性软模板注意力机制的短文本自动摘要方法

    公开(公告)号:CN111709230A

    公开(公告)日:2020-09-25

    申请号:CN202010366742.1

    申请日:2020-04-30

    摘要: 本发明涉及基于词性软模板注意力机制的短文本自动摘要方法,属于自然语言处理技术领域。本发明首先对文本进行词性标记,将标出的词性序列视为文本的词性软模板,指导模型学习构造摘要句的结构规范,在模型的编码端实现词性软模板的表征,然后引入词性软模板注意力机制,将文中名词、动词等词性序列以注意力的方式增强模型对核心词性的关注,最后在解码端联合词性软模板注意力与传统注意力产生摘要句;本发明提出在构建神经网络摘要生成框架时,加入词性软模板注意力机制,指导模型学习合理的词性组合方式,辅助生成结构清晰且语义完整的摘要。本发明有效提升了生成式摘要的性能,在当前ROUGE评价指标上取得了较好的效果。

    融合句法解析树的汉-越神经机器翻译方法

    公开(公告)号:CN110377918B

    公开(公告)日:2020-08-28

    申请号:CN201910635895.9

    申请日:2019-07-15

    摘要: 本发明涉及融合句法解析树的汉‑越神经机器翻译方法,属于自然语言处理技术领域。本发明能够实现汉语‑越南语、越南语‑汉语的机器翻译。通过从互联网爬取和人工翻译的方式构建的汉语‑越南语双语平行语料作为训练数据集。为解决目前汉‑越机器翻译中由于训练语料不足导致的翻译错误;本发明首先对源语言进行分词、词性标记以及句法解析,得到源语言的句法树。然后将句法标签向量化并融合到机器翻译模型训练的编码过程,训练机器翻译模型。所得模型可以有效完成汉语和越南语之间的翻译。实验结果表明,相比未融合句法解析树的基准系统该方法得到的译文更加流畅,并获得了0.6个BLEU值的提升。

    基于融合词性和位置信息的汉-越卷积神经机器翻译方法

    公开(公告)号:CN110321568B

    公开(公告)日:2020-08-28

    申请号:CN201910613122.0

    申请日:2019-07-09

    摘要: 本发明涉及基于融合词性和位置信息的汉‑越卷积神经机器翻译方法,属于自然语言处理技术领域。本发明首先在收集的汉越双语平行语料的基础上,利用汉越词性标记工具对汉语和越南语进行词性信息标注,并在标记词性信息的双语语料基础上生成具有词性信息的词表,利用带词性的词表对汉越双语语料进行词与词性的联合编码与解码,然后通过门控线性单元融入词性信息,并采取多层卷积神经网络及不同大小卷积核进行翻译模型的训练,生成较好性能的汉‑越神经机器翻译模型再进行汉语越南语机器翻译。本发明有效的改善了汉越译文语序不一致的问题,能提升资源稀缺的汉‑越神经机器翻译性能。

    一种基于稀疏表示的提升图像清晰度的方法

    公开(公告)号:CN107292316B

    公开(公告)日:2020-08-25

    申请号:CN201710397773.1

    申请日:2017-05-31

    IPC分类号: G06K9/46 G06T5/00 G06T5/50

    摘要: 本发明公开了一种基于稀疏表示的提升图像清晰度的方法,输入两幅源图像分别进行低秩分解;利用字典学习模型对选用的图像集进行训练;利用稀疏表示方法对低秩部分图像和稀疏部分图像进行稀疏融合,接着对低秩融合图像和稀疏融合图像分别采用正交匹配追踪算法求解得到两部分图像对应的稀疏系数;将低秩字典与求得的稀疏系数进行线性组合,得到组合后的图像;接着利用稀疏表示方法对组合后的图像进行稀疏重构,得到重构图像;接着对重构图像采用正交匹配追踪算法求解得到稀疏系数;把得到的稀疏系数与两个字典进行稀疏表达得到融合图像。本发明不管是从主观视觉上还是客观评价指标上来看实验结果,本发明的融合结果明显优于其他传统的方法。

    一种基于最大熵的越南语交叉歧义消岐方法

    公开(公告)号:CN105740412B

    公开(公告)日:2020-07-10

    申请号:CN201610063602.0

    申请日:2016-01-29

    IPC分类号: G06F16/951 G06F40/289

    摘要: 本发明涉及一种基于最大熵的越南语交叉歧义消岐方法,属于自然语言处理技术领域。本发明首先对形成的越南语交叉歧义字段库中的越南语交叉歧义字段语料进行消歧建模,得到越南语最大熵交叉歧义消歧模型;从越南语交叉歧义字段语料中随机选取测试语料通过已建好的越南语最大熵交叉歧义消歧模型进行消歧,得到消歧的参数序列。本发明对越南语交叉歧义词实现了有效的消歧,为词法分析、句法分析、语义分析、信息抽取、信息检索和机器翻译等工作提供强有力的支撑;目前没有发现越南语做相关的交叉歧义消歧的报告,本发明取得了很好的效果。

    一种话题获取方法、终端、计算机可读存储介质

    公开(公告)号:CN111324725A

    公开(公告)日:2020-06-23

    申请号:CN202010096076.4

    申请日:2020-02-17

    摘要: 本发明涉及话题获取方法、终端、计算机可读存储介质,其中方法包括:输入目标文本;根据预设话题模型得到所述目标文本的第一话题集合,所述第一话题集合包括至少一个话题词;对所述目标文本进行分析得到所述目标文本的第一事件要素集合,所述第一事件要素集合至少包括一个事件要素,所述事件要素是指所述目标文本对应的事件信息;根据所述第一话题集合和所述第一事件要素集合得到满足话题相关条件的第二话题集合;计算所述第二话题集合和所述目标文件中的词语的相关性,并计算所述第一事件要素集合与所述目标文件中词语的相似度;根据所述相关性和所述相似度对所述第二话题集合进行优化处理,得到目标话题集合。能提高话题与事件之间的相关性。

    一种基于孪生循环神经网络的泰文句子切分方法

    公开(公告)号:CN111126037A

    公开(公告)日:2020-05-08

    申请号:CN201911309244.7

    申请日:2019-12-18

    摘要: 本发明公开了一种基于孪生循环神经网络的泰文句子切分方法,属于句子切分领域。本发明方法不需要人工设计特征,也不依赖词性标注和句法信息。与已有方法相比,本发明所提出的方法更加简洁,句子切分效果也有了提升;本发明方法对空格前后的词序列进行编码获取句子切分的特征时,空格前和空格后的词序列使用相同的模型框架,并且共享了相同的参数,这样更好的考虑了空格前后词序列之间的可比性,同时缩减了参数,更有利于模型的训练;通过词嵌入和循环神经网络学习词序的特征表示有助于捕获句子中的隐含语义,从而提升句子切分的性能。