一种汉英短语翻译对自动抽取与过滤方法

    公开(公告)号:CN101482860A

    公开(公告)日:2009-07-15

    申请号:CN200810055782.3

    申请日:2008-01-09

    发明人: 宗成庆 周玉

    IPC分类号: G06F17/27 G06F17/28

    摘要: 本发明汉英短语翻译对自动抽取与过滤方法,是对原始汉、英双语句对提取划分语块和对候选短语进行过滤的特征信息;根据不同的特征信息确定划分语块锚点,将原始汉、英句对划分为多个单语语块;利用原始汉、英双语句对的词对齐信息在语块内进行候选短语的抽取;利用候选短语的出现频率的特征信息来对生成的候选短语过滤,生成需要的短语对。本发明采用遍历语块内的短语抽取来取代现有遍历整句进行抽取的方法,对于空词的无限制扩展尤其有用,从而有效的解决了目前短语抽取量过大对于存储空间的要求,并且有效的过滤掉了很多噪音短语。本发明能够直接根据当前句对的固定词对齐生成多组短语,从而在满足精度的前提下提高了短语对的召回率。

    一种基于拒绝域的多生物特征认证融合方法

    公开(公告)号:CN101295361A

    公开(公告)日:2008-10-29

    申请号:CN200710098690.9

    申请日:2007-04-25

    发明人: 宗成庆 李寿山

    IPC分类号: G06K9/62

    摘要: 本发明涉及模式识别领域,公开一种基于拒绝域的多生物特征认证融合方法,该方法和传统的多生物认证融合方法主要区别在于:传统的融合方法融合所有单个生物认证初始分类器分类结果,本发明将多生物特征匹配初始分类器生成多个组合分类器,训练每个组合分类器或初始分类器,设置每个组合分类器或初始分类器拒绝的匹配阈值,用于生成带拒绝域的分类器;把带拒绝域的分类器的分类结果用投票法进行融合。融合时,仅仅融合那些没有被带拒绝域分类器拒绝的结果。本发明的优势在于系统可以过滤掉分类器的错误分类结果给整个系统带来的噪音,从而大大提高了生物认证的正确率,为多生物认证的实用化提供了一种很好的融合算法。

    一种机器翻译模板自动获取方法及装置

    公开(公告)号:CN1801140A

    公开(公告)日:2006-07-12

    申请号:CN200410101877.6

    申请日:2004-12-30

    发明人: 宗成庆 胡日勒

    IPC分类号: G06F17/28

    摘要: 本发明涉及计算机科学与技术领域,特别是一种新的面向机器翻译的翻译模板自动获取的方法及装置。方法步骤:a)语料的预处理;b)分别提取汉语部分的词表以及英语部分的词表;c)分别对汉语部分和英语部分进行语法的归纳;d)对提取出来的短语结构进行对齐;e)对采用不同相似度函数的结果进行对比,选取最优的相似度函数;f)对对齐的结果进行后处理以获得所需要的机器翻译模板。装置包括:汉语分词装置、汉语语法归纳装置、英语语法归纳装置、短语结构对齐装置以及后处理装置。

    基于统计模型的口语解析方法

    公开(公告)号:CN1570921A

    公开(公告)日:2005-01-26

    申请号:CN03147549.3

    申请日:2003-07-22

    发明人: 宗成庆 解国栋

    IPC分类号: G06F17/27

    摘要: 一种基于统计模型的口语解析方法,包括步骤:语义表示定义;进行统计解析模型参数的训练;解析句子。本发明的特点是具有较高的鲁棒性,能够较好的处理口语中存在的非规范语言现象。另外,采用统计解析方法,能够快速的实现解析系统在不同领域间的移植,这两个特点,使得这一技术能够很快的在不同领域实现产品化。

    语音翻译模型训练方法、装置、电子设备及存储介质

    公开(公告)号:CN117113091B

    公开(公告)日:2024-02-13

    申请号:CN202311380008.0

    申请日:2023-10-24

    摘要: 本发明提供一种语音翻译模型训练方法、装置、电子设备及存储介质,应用于自然语言处理技术领域。该方法包括:获取第一语音数据、第一文本数据、第一语音识别数据、第一文本翻译数据以及第一语音翻译数据;分别对所述第一语音数据、所述第一文本数据以及所述第一语音识别数据进行掩码操作,生成多个掩码序列;基于所述多个掩码序列训练语音翻译模型的编码器;在所述编码器的第一损失函数处于收敛状态的情况下,冻结所述编码器的参数,并基于所述第一文本翻译数据训练所述语音翻译模型的解码器;基于所述第一语音翻译数据对所述语音翻译模型进行训练。

    神经机器翻译方法、装置、电子设备及介质

    公开(公告)号:CN117034968B

    公开(公告)日:2024-02-02

    申请号:CN202311304326.9

    申请日:2023-10-10

    IPC分类号: G06F40/58 G06N3/0455 G06N3/08

    摘要: 本发明提供一种神经机器翻译方法、装置、电子设备及介质,属于机器翻译技术领域。该方法应用于机器翻译模型,机器翻译模型包括编码器和解码器,该方法包括:识别待翻译的源语言句子对应的目标翻译规则模板,所述目标翻译规则模板包括第一源端模板、第一目标端模板和第一源端变量片段;基于第一约束提示序列和待翻译的源语言句子,得到编码器的输入;基于第一约束提示序列和解码器的初始输入序列,得到解码器的输入;所述第一约束提示序列为依次拼接所述第一源端模板、所述第一源端变量片段和所述第一目标端模板后得到的;基于编码器的输入和解码器的输入,得到机器翻译模型输出的翻译结果。本发明提供的神经机器翻译方法,可以提高翻译准确性。

    语音翻译模型训练方法、装置、电子设备及存储介质

    公开(公告)号:CN117113091A

    公开(公告)日:2023-11-24

    申请号:CN202311380008.0

    申请日:2023-10-24

    摘要: 本发明提供一种语音翻译模型训练方法、装置、电子设备及存储介质,应用于自然语言处理技术领域。该方法包括:获取第一语音数据、第一文本数据、第一语音识别数据、第一文本翻译数据以及第一语音翻译数据;分别对所述第一语音数据、所述第一文本数据以及所述第一语音识别数据进行掩码操作,生成多个掩码序列;基于所述多个掩码序列训练语音翻译模型的编码器;在所述编码器的第一损失函数处于收敛状态的情况下,冻结所述编码器的参数,并基于所述第一文本翻译数据训练所述语音翻译模型的解码器;基于所述第一语音翻译数据对所述语音翻译模型进行训练。

    神经机器翻译方法、装置、电子设备及介质

    公开(公告)号:CN117034968A

    公开(公告)日:2023-11-10

    申请号:CN202311304326.9

    申请日:2023-10-10

    IPC分类号: G06F40/58 G06N3/0455 G06N3/08

    摘要: 本发明提供一种神经机器翻译方法、装置、电子设备及介质,属于机器翻译技术领域。该方法应用于机器翻译模型,机器翻译模型包括编码器和解码器,该方法包括:识别待翻译的源语言句子对应的目标翻译规则模板,所述目标翻译规则模板包括第一源端模板、第一目标端模板和第一源端变量片段;基于第一约束提示序列和待翻译的源语言句子,得到编码器的输入;基于第一约束提示序列和解码器的初始输入序列,得到解码器的输入;所述第一约束提示序列为依次拼接所述第一源端模板、所述第一源端变量片段和所述第一目标端模板后得到的;基于编码器的输入和解码器的输入,得到机器翻译模型输出的翻译结果。本发明提供的神经机器翻译方法,可以提高翻译准确性。

    基于对话逻辑的多轮口语理解方法、系统、装置

    公开(公告)号:CN110413752B

    公开(公告)日:2021-11-16

    申请号:CN201910661448.0

    申请日:2019-07-22

    IPC分类号: G06F16/332 G06F16/35 G06K9/62

    摘要: 本发明属于人机对话技术领域,具体涉及一种基于对话逻辑的多轮口语理解方法、系统、装置,旨在解决现有多轮口语理解方法对历史对话数据利用率低的问题。本系统方法包括获取当前对话数据、历史对话数据;通过双向门控循环神经网络,分别将当前对话数据和历史对话数据编码成输入向量和记忆向量;根据所述输入向量、所述记忆向量,通过基于注意力机制的记忆检索方法生成语境知识向量;基于所述语境知识向量和所述当前对话数据,通过多轮口语理解模型获取当前对话数据的意图分类信息和语义槽填充信息。本发明可以在多轮口语理解中对历史对话数据高效的利用,提升语言理解在多轮场景下的性能。

    融合用户和整体评价信息的评价对象情感分类方法及装置

    公开(公告)号:CN109241993B

    公开(公告)日:2021-10-26

    申请号:CN201810832903.4

    申请日:2018-07-26

    IPC分类号: G06K9/62 G06N3/04

    摘要: 本发明属于情感分类技术领域,具体提供了一种融合用户和整体标签信息的评价对象情感分类方法及装置。旨在解决现有技术不考虑不同用户的差异性和忽略整体评价信息导致对评价对象情感极性评价不准确的问题。本发明提供了一种融合用户和整体评价信息的评价对象情感分类方法,包括基于预先获取的评论信息以及相应的用户信息和整体评价信息得到评论向量;基于预先构建的评价对象情感分类模型并根据预设的评价对象,对评论向量进行情感预测,得到每个评价对象对应的情感极性。本发明的方法全面考虑了用户信息和整体评价信息对评价对象情感分类的影响,相对于其他方法提升了预测的准确率。本发明的装置同样具有上述有益效果。