-
公开(公告)号:CN107357789A
公开(公告)日:2017-11-17
申请号:CN201710575907.4
申请日:2017-07-14
Applicant: 哈尔滨工业大学
Abstract: 融合多语编码信息的神经机器翻译方法,本发明涉及神经机器翻译方法。本发明的目的是为了解决现有技术翻译准确率低的问题。过程为:一,得到每种语言各自对应的子字符号序列,建立dic_s1,dic_s2和dic_t;二、将词向量输入NMT模型训练,根据初值训练更新词向量,直至NMT模型的bleu值提升1-3个点;三、得到ctx_s1和ctx_s2;四、得到融合结果;五、得到C;六、将t+1时刻qt+1按公式计算得到目标语言序列第t+1时刻的单词y′t+1的概率分布pt+1,根据pt+1采样出t+1时刻的目标单词y′t+1,直至解码出句子结束标记,解码翻译结束。本发明用于机器翻译领域。
-
公开(公告)号:CN104199813B
公开(公告)日:2017-05-24
申请号:CN201410491100.9
申请日:2014-09-24
Applicant: 哈尔滨工业大学
IPC: G06F17/28
Abstract: 本发明涉及一种基于伪反馈的个性化机器翻译系统及方法。现有传统的机器翻译方法无法获得高质量的个性化翻译系统,造成不能满足用户各种翻译需求的问题。本发明翻译系统包括:用短语表过滤模块、输入模块、初步翻译模块、伪反馈检索模块、短语表分类模块和解码器模块。基于伪反馈的个性化机器翻译方法包括:输入过程:用户将翻译任务S输入;初步翻译过程:利用初步翻译模块得到翻译任务的初步机器翻译结果T′;伪反馈检索过程:利用伪反馈检索模块检索得到相似翻译实例的初步翻译结果和标准翻译译文R;短语表分类过程:使训练后的通用后编辑模型变成个性化后编辑模型,再过滤得到优化的个性化后编辑模型;解码器模块解码过程:以优化的个性化后编辑模型对翻译任务的初步机器翻译结果T′进行解码,得到佳化的最终翻译结果。本发明用于机器翻译领域。
-
公开(公告)号:CN101540017B
公开(公告)日:2016-08-03
申请号:CN200910071908.0
申请日:2009-04-28
IPC: H04L12/58
Abstract: 基于字节级n元文法的特征提取方法及垃圾邮件过滤器,涉及到包括垃圾邮件过滤技术在内的信息处理技术领域。它解决了现有文本特征提取方法中存在的需要词库支持,并不能够同时适应对英文、汉字、图形以及其它形式信息的特征提取、鉴别的问题,本发明的特征提取方法所提取的特征信息为m个长度为n个字节的信息片段序列。本发明的垃圾邮件过滤器中的分类器采用上述方法提取邮件的特征信息作为判断依据,并采用逻辑回归模型这一判别学习模型从理论上保证能够取得良好的过滤性能;本发明的垃圾邮件过滤器中的训练器采用在线学习方式,采用TONE(Train On or Near Error)方法调整特征权重。本发明的垃圾邮件过滤器尤其适用于中文垃圾邮件的过滤。
-
公开(公告)号:CN105677913A
公开(公告)日:2016-06-15
申请号:CN201610111365.0
申请日:2016-02-29
Applicant: 哈尔滨工业大学
CPC classification number: G06F17/30734 , G06F17/278 , G06F17/2818 , G06F2216/01
Abstract: 一种基于机器翻译的中文语义知识库的构建方法,本发明涉及中文语义知识库的构建的方法。本发明是要解决中文语义知识库匮乏的问题、现有技术昂贵的人力及时间的问题,和提高基于跨语言映射的语义知识库翻译的性能的问题,而提出的一种基于机器翻译的中文语义知识库的构建方法。该方法是通过一、得到标注了实体的源语言端语料;二、根据主题模型计算得到实体的主题分布;三、根据源语言端实体词表从短语翻译表中抽取源语言端语义知识库中实体的翻译概率,记为p(tj|si);四、构建基于源语言端语义知识库图结构信息的实体翻译模型等步骤实现的。本发明应用于中文语义知识库的构建领域。
-
公开(公告)号:CN102663123B
公开(公告)日:2014-09-03
申请号:CN201210118461.X
申请日:2012-04-20
Applicant: 哈尔滨工业大学
IPC: G06F17/30
Abstract: 基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统,涉及信息检索技术领域,具体涉及语义检索技术。本发明解决了现有基于上下文相似度和查询日志的语义属性词自动识别方法存在的人工介入程度高、种子属性上下文分布和语料中潜在属性词不匹配的问题。本发明首先根据待检索的语义类信息过滤查询日志提取伪种子属性;同时,根据待检索的语义类遍历检索日志生成候选属性或伪种子属性及其上下文候选数据的集合;并根据获得的候选属性或伪种子属性及其全部上下文构建属性-上下文图;最后采用基于随机漫步的权重传播算法计算所有候选属性的权重,并根据所述权重排序,抽取前Y个候选属性作为待检索的语义类对应的语义属性。
-
公开(公告)号:CN102663123A
公开(公告)日:2012-09-12
申请号:CN201210118461.X
申请日:2012-04-20
Applicant: 哈尔滨工业大学
IPC: G06F17/30
Abstract: 基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统,涉及信息检索技术领域,具体涉及语义检索技术。本发明解决了现有基于上下文相似度和查询日志的语义属性词自动识别方法存在的人工介入程度高、种子属性上下文分布和语料中潜在属性词不匹配的问题。本发明首先根据待检索的语义类信息过滤查询日志提取伪种子属性;同时,根据待检索的语义类遍历检索日志生成候选属性或伪种子属性及其上下文候选数据的集合;并根据获得的候选属性或伪种子属性及其全部上下文构建属性-上下文图;最后采用基于随机漫步的权重传播算法计算所有候选属性的权重,并根据所述权重排序,抽取前Y个候选属性作为待检索的语义类对应的语义属性。
-
公开(公告)号:CN101520779A
公开(公告)日:2009-09-02
申请号:CN200910071818.1
申请日:2009-04-17
Applicant: 哈尔滨工业大学
IPC: G06F17/28
Abstract: 一种机器翻译自动诊断评价方法,属于机器翻译评价技术。它解决了现有翻译系统的评价方法中存在的只能考察翻译系统对特定单语现象的处理能力、和不能够获得翻译系统的缺陷的问题。它的具体过程为:首先将参考译文和系统译文进行词汇级匹配,然后对于每个目标语词汇利用翻译知识来寻找可能的源语言词汇,然后进行错误识别,并针对每个错误,采用源语言与目标语之间的关系判定其双语类型,进而利用双语特征与翻译知识的关系判定错误的成因。本发明所述的双语错误用源语言句子、参考译文及系统译文中相关联的词汇来表示,并在诊断过程中引入了词汇的语言学特征。本发明的方法能够更加直接的帮助开发者找到并解决翻译系统的内在缺陷。
-
公开(公告)号:CN120068893A
公开(公告)日:2025-05-30
申请号:CN202510107862.2
申请日:2025-01-23
Applicant: 哈尔滨工业大学
IPC: G06F40/58 , G06F40/242 , G06N3/045 , G06N3/0475 , G06N3/088 , G06N3/092 , G06N3/094 , G06N5/04
Abstract: 本发明公开了一种基于双语词典注入的机器翻译强化方法,属于机器翻译强化技术领域。解决了现有技术中传统的机器翻译强化方法针对专有领域翻译的模型性能较差的问题;本发明对大规模无监督单语语料进行双语对齐,生成双语词典;对双语词典引入平行语料,统计双语词典中各个词对在平行语料中的命中率,建立Memory Bank并记录命中率,根据命中率进行词对重要性排序,得到排序后的双语词典;通过Memory Bank对排序后的双语词典中的源端数据进行数据增强,并输入到深度对抗网络模型进行模型训练,得到训练完的深度对抗网络模型。本发明有效实现了对平行语料进行数据增强并提升机器翻译系统生成质量,可以应用于机器翻译建模。
-
公开(公告)号:CN119962547A
公开(公告)日:2025-05-09
申请号:CN202510035739.4
申请日:2025-01-09
Applicant: 哈尔滨工业大学
Abstract: 一种结合知识图谱、大语言模型与视觉想象力机制的多模态机器翻译训练方法,属于人工智能技术领域。为优化多模态机器翻译方法的图像生成质量,本发明包括人工设置待翻译句子,构建训练集1;应用文字处理库处理训练集1中的待翻译句子得到文字三元组,将训练集1中的待翻译句子输入图像生成模型生成图片后利用图像三元组提取模型处理得到图像三元组,应用两组三元组的距离性质对图像生成模型进行训练得到训练好的图像生成模型;将训练集1中的待翻译句子输入到训练好的图像生成模型待翻译句子对应生成图像进行编码处理,然后和对应的待翻译句子进行拼接后,构建训练集2,利用训练集2对大语言模型进行训练,优化大语言模型的多模态机器翻译性能。
-
公开(公告)号:CN119168064A
公开(公告)日:2024-12-20
申请号:CN202411225063.7
申请日:2024-09-03
Applicant: 哈尔滨工业大学
IPC: G06N5/04 , G06N3/0455 , G06N3/0442 , G06N3/0475 , G06N3/094 , G06F18/25 , G06F18/15 , G06F18/213 , G06F18/21 , G06F16/432 , G06F16/9032 , H04N21/854
Abstract: 一种基于统一框架的中文多模态数据生成方法,涉及自然语言处理与计算机视觉技术领域。为解决现有技术中存在的,现有的多模态大模型无法在统一的框架下高效地理解和生成包括文本、图像、视频及音频在内的多种模态数据的技术问题,本发明提供的技术方案为:包括:采集多模态数据并进行预处理;进行特征提取,得到文本特征向量和多模态特征向量;将所述多模态特征向量行特征对齐,然后将对齐后的多模态特征与所述文本特征向量进行拼接,得到用户输入数据的特征嵌入表示;嵌入表示输入多模态大模型,生成多模态内容;将生成的多模态内容进行整合,并按顺序输出。适合应用于理解和生成包括文本、图像、视频及音频在内的多模态数据的工作中。
-
-
-
-
-
-
-
-
-