-
公开(公告)号:CN106202054A
公开(公告)日:2016-12-07
申请号:CN201610590151.6
申请日:2016-07-25
Applicant: 哈尔滨工业大学
Abstract: 一种面向医疗领域基于深度学习的命名实体识别方法,本发明涉及命名实体识别方法。本发明是要解决CRF模型由于不考虑语义信息,在训练语料极度缺乏的情况下,标注结果中会出现大量的无意义的标注结果的问题,而提出的一种面向医疗领域基于深度学习的命名实体识别方法。该方法是通过一、得到了补充医疗领域语料的词表voc和词表voc对应的词向量vec;二、利用有标注语料中的训练语料进行长短期记忆单元网络LSTM的训练;三、根据二中的更新的神经网络参数θ进行标注结果的路径查找,得到有标注语料的标注结果;利用命名实体识别评估标准F值对有标注语料中的测试语料的标注结果进行评估等步骤实现的。本发明应用于命名实体识别领域。
-
公开(公告)号:CN104199813A
公开(公告)日:2014-12-10
申请号:CN201410491100.9
申请日:2014-09-24
Applicant: 哈尔滨工业大学
IPC: G06F17/28
Abstract: 本发明涉及一种基于伪反馈的个性化机器翻译系统及方法。现有传统的机器翻译方法无法获得高质量的个性化翻译系统,造成不能满足用户各种翻译需求的问题。本发明翻译系统包括:用短语表过滤模块、输入模块、初步翻译模块、伪反馈检索模块、短语表分类模块和解码器模块。基于伪反馈的个性化机器翻译方法包括:输入过程:用户将翻译任务S输入;初步翻译过程:利用初步翻译模块得到翻译任务的初步机器翻译结果T′;伪反馈检索过程:利用伪反馈检索模块检索得到相似翻译实例的初步翻译结果和标准翻译译文R;短语表分类过程:使训练后的通用后编辑模型变成个性化后编辑模型,再过滤得到优化的个性化后编辑模型;解码器模块解码过程:以优化的个性化后编辑模型对翻译任务的初步机器翻译结果T′进行解码,得到佳化的最终翻译结果。本发明用于机器翻译领域。
-
公开(公告)号:CN103617160A
公开(公告)日:2014-03-05
申请号:CN201310674134.7
申请日:2013-12-11
Applicant: 哈尔滨工业大学
Abstract: 基于两两对齐的多语种句对齐方法及装置,属于信息技术领域,尤其涉及信息技术领域互联网语言翻译系统中的多语种句对齐方法。本发明是为了解决在利用两两对齐方法进行多语种句对齐时,对齐结果不一致的问题。本发明所述的基于两两对齐的多语种句对齐方法及装置,首先对不同语种文本中的句子进行两两对齐,获得两两对齐结果,然后对该结果进行冲突识别并将冲突的部分标记出来,最后对冲突部分进行评分并重新进行两两对齐,从而使得多语种句对齐结果具有一致性,从而可以将两两对齐结果中部分对齐错误的错误结果更正过来。本发明所述的基于两两对齐的多语种句对齐方法及装置,适用于信息技术领域互联网语言翻译系统中。
-
公开(公告)号:CN101908055B
公开(公告)日:2013-02-13
申请号:CN201010118656.5
申请日:2010-03-05
IPC: G06F17/30
Abstract: 一种信息过滤系统,涉及到一种信息过滤技术。它解决了现有信息过滤模型中存在的优化目标和过滤问题评价指标不一致、模型优化结果产生偏差、性能受到制约的问题,本发明的优化lam%的信息分类阈值的设定方法为:设定偏置的分类阈值,使hm%或sm%趋近于0,进而使得lam%的值趋近于0。本发明的信息过滤系统中包括用于存储垃圾信息和正常信息的特征及其权重信息的特征权重库;用于根据用户的反馈信息调整/更新特征权重库中的特征及其权重的训练器;用于对接收信息进行特征提取并获得特征信息的信息、以及基于特征权重库中的特征对于接收到信息进行识别,将所述信息分为正常信息和垃圾信息的过滤器。
-
公开(公告)号:CN119989408A
公开(公告)日:2025-05-13
申请号:CN202510062744.4
申请日:2025-01-15
Applicant: 哈尔滨工业大学
Abstract: 本发明是一种基于思维链的大模型安全防护方法,适用于增强各类大语言模型的防御能力且无需额外的后训练开销。本发明涉及大模型安全防护技术领域,通过大语言模型安全防御系统提示词增强,确保生成安全的回复;基于零样本思维链的安全防御后缀,应对越狱攻击;通过计算越狱攻击成功率,来对大语言模型的安全性进行评估。本发明采用的基于思维链的大语言模型安全防护方法包含了安全系统提示词和零样本思维链两部分。本发明不引入额外的计算成本,而是充分利用大语言模型的推理能力来抵御越狱攻击,极大地增强了大语言模型的安全防护能力,确保大模型在不同应用场景下的稳定运行和安全使用。
-
公开(公告)号:CN117556251B
公开(公告)日:2025-03-18
申请号:CN202311332989.1
申请日:2023-10-16
Applicant: 哈尔滨工业大学
IPC: G06F18/214 , G06F18/241
Abstract: 一种基于LoRA嵌入的指令数据挖掘方法和系统,涉及指令数据挖掘领域。解决了常见的通过模型生成的指令数据往往重复性较高,类似的指令数据反复出现,数据集同质化和冗余的情况较为普遍的问题。所述方法包括:采用LoRA的方式对ShareGPT数据集进行训练,获取所述ShareGPT数据集中指令数据的嵌入表示;通过UMAP算法对所述嵌入表示进行降维,获取每个指令在三维空间中的表示;根据最小化指令数据在三维空间中的密度对每个指令表示进行筛选,获取多样性增强的数据子集。本发明应用于人工神经网络训练领域。
-
公开(公告)号:CN119378574A
公开(公告)日:2025-01-28
申请号:CN202411408324.9
申请日:2024-10-10
Applicant: 哈尔滨工业大学
Abstract: 一种基于情感增强的语音大语言模型翻译强化方法,涉及人工智能领域。解决现有技术中缺少如何高效地将语音模态信息融入到现有的大语言模型中,使其完成端到端的语音自动翻译任务。所述方法包括:收集包含多种情感表达的语音与文本对的多语言数据集,并进行预处理,构成原文语音与文本和译文语音与文本的多语言语料对;将多语言语料对的语音部分输入到语音大语言模型中,令语音大语言模型对其进行翻译;使用情感契合度打分模型对步骤2中的翻译结果进行评估,判断翻译结果中的语音情感与原文语音与文本的多语言语料对中的情感是否一致;使用打分模型为同一问题的不同结果进行打分,根据分数从高到低排序进行DPO算法,更新语音大语言模型的参数。
-
公开(公告)号:CN118467719A
公开(公告)日:2024-08-09
申请号:CN202410663888.0
申请日:2024-05-27
Applicant: 哈尔滨工业大学
IPC: G06F16/34 , G06F40/58 , G06F40/194
Abstract: 本发明公开了一种基于思维链的跨语言多文档摘要评价方法,属于自然语言处理技术领域。解决了现有技术中传统的跨语言多文档摘要评价方法忽视生成摘要与原文之间的事实一致性导致的评价质量较低的问题;本发明提取给定的源语言文档集合中每个源语言文档的事实性关键信息,提取生成的跨语言多文档摘要中每个摘要的事实性关键信息;对源语言答案和目标语言答案进行平均度量,得到信息覆盖度得分;计算跨语言多文档摘要中提取的所有事实性关键信息即所有陈述的一致性得分的平均值,得到事实一致性分数;将信息覆盖度得分与事实一致性得分进行融合,得到综合评价分数。本发明有效提升了跨语言多文档摘要评价方法的精度和效率,可以应用于摘要评估。
-
公开(公告)号:CN118364912A
公开(公告)日:2024-07-19
申请号:CN202410482904.6
申请日:2024-04-22
Applicant: 哈尔滨工业大学
IPC: G06N5/04 , G06N5/022 , G06F16/332 , G06F16/33
Abstract: 本申请公开了一种基于模型认知校验的多跳推理知识编辑方法,属于知识编辑技术领域,包括:S100构建推理模型和文本相似性评估模型;S200获取多跳推理问题并拆解出单跳推理子问题,针对单跳推理子问题生成预设回答;S300通过文本相似性评估模型检索与单跳推理子问题相关的若干外部知识;S400计算预设回答的生成序列与模型认知的相关度,根据相关度从若干外部知识中筛选出目标外部知识,通过目标外部知识对生成的预设回答进行修正,并输出修正后的预设回答;S500判断是否完成多跳推理问题,若是,结束推理过程,否则,返回步骤S200。本申请提供的方法在多跳推理问答任务中多跳推理性能更强。
-
公开(公告)号:CN111897944B
公开(公告)日:2024-03-22
申请号:CN202010827800.6
申请日:2020-08-17
Applicant: 哈尔滨工业大学
IPC: G06F16/332 , G06F40/30 , G06F40/295 , G06F40/216 , G06F16/36 , G06F16/28
Abstract: 基于语义空间共享的知识图谱问答系统,它属于中文知识图谱问答技术领域。本发明解决了现有知识图谱问答系统中各模块之间信息共享不足,导致获得的答案实体的准确率有限的问题。本发明利用问句主实体识别子模块,实体链接子模块和关系预测子模块的训练数据来联合训练BERT预训练语言模型,通过将联合训练好的模型嵌入各子模块,以实现语义空间的信息共享。通过本发明方法可以确保问句主实体识别子模块能够且只能从自然语言问句中识别出一个主实体,通过各子模块之间的语义信息共享,可以有效提高获得的答案实体的准确率。通过实验证明,采用本发明方法获得的答案实体的准确率可以达到86.64%。本发明可以应用于知识图谱问答。
-
-
-
-
-
-
-
-
-