-
公开(公告)号:CN114528381A
公开(公告)日:2022-05-24
申请号:CN202011199067.4
申请日:2020-10-31
IPC: G06F16/332 , G06F16/33 , G06F16/35 , G06F40/289 , G06F40/35 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本申请提供了一种问答识别方法以及相关设备。首先,获取目标问答对,然后,将目标问答对输入目标问答模型,目标问答模型的损失函数由分类模块的第一损失函数、答案抽取模块的第二损失函数以及答案识别模块的第三损失函数得到。最后,输出答案库中是否包括目标问题所对应的目标答案。由此可鉴,目标问答模型针对问题作答时结合了分类模块、答案抽取模块以及答案识别模块的特征,通过协同不同粒度的语义,提升对话问答的准确率。
-
公开(公告)号:CN114238554A
公开(公告)日:2022-03-25
申请号:CN202010942991.0
申请日:2020-09-09
Abstract: 本申请提供一种文本标注提取方法。方法应用于人工智能领域。方法包括:服务器接收并响应电子设备发送第一标注请求,启动动态标注服务,其中,动态标注服务对应有第一动态标注模型;服务器接收电子设备发送的第一文本序列以及第一文本序列对应的第一标注信息,其中,第一文本序列包括第一文本信息和第二标签;服务器获取第二文本序列;当第一文本序列的数量大于第一阈值时,服务器通过第一动态标注模型确定出第二文本序列的第二标注信息;服务器基于第二标注信息,提取出第二文本序列中带有第二标签的属性的文字。通过这种方法,当自动标注模型的标注标签变化时,无需重新训练模型,能够提高自动标注的效率和准确性。
-
公开(公告)号:CN105068996A
公开(公告)日:2015-11-18
申请号:CN201510604035.0
申请日:2015-09-21
Applicant: 哈尔滨工业大学
IPC: G06F17/27
Abstract: 一种中文分词增量学习方法,涉及中文分词领域。本发明为了解决现有的在源领域切分数据的基础上加入目标领域数据混合训练数据的方法存在的每次数据混合都需要重新训练模型和数据处理量非常大时导致的运算时间长、对硬件要求高的问题。本发明首先对中文语句集合中的语句xn进行人工标注标记,将已进行人工标记的语句(xn,yn)记为训练集;对中文语句集合中特征的权重向量W进行初始化,针对中文语句集合中的N个语句,计算每个语句权重向量Wn;然后进行T次迭代操作,然后计算权重向量平均值当中文语句集合中引入增量中文语句集合时,计算出增量中文语句集合的权重向量平均值求得中文分词增量权重参数完成中文分词增量的学习。本发明适用中文分词领域。
-
公开(公告)号:CN119377711A
公开(公告)日:2025-01-28
申请号:CN202411492400.9
申请日:2024-10-24
Applicant: 哈尔滨工业大学
IPC: G06F18/23 , G06F18/2413 , G06F16/2452 , G06F16/35 , G06F16/353
Abstract: 本发明属于自然语言处理领域,尤其基于聚类的Text‑to‑SQL示例合成方法、设备以及存储介质。本发明目的是解决现有的方法依赖于人工标注的示例池导致大模型性能根据用户问题生成SQL语句准确率低的问题,采用基于人工标注,获取原示例池;采用聚类方法将步骤一获取的原示例池中的示例划分为N个子示例池;根据划分后的N个子示例池进行合成,得到合成示例池;所述合成示例池包括M个合成示例;将合成示例池加入原示例池中,得到融合示例池,增强示例池多样性,从而降低示例标注的开销,解决了依赖于人工标注的示例池导致大模型性能根据用户问题生成SQL语句准确率低的问题。
-
公开(公告)号:CN118761461A
公开(公告)日:2024-10-11
申请号:CN202410769012.4
申请日:2024-06-14
Applicant: 国网安徽省电力有限公司电力科学研究院 , 哈尔滨工业大学 , 国网安徽省电力有限公司
Abstract: 电网故障诊断查询系统的稀疏知识图谱补全方法、系统及存储介质,属于电网故障诊断和知识图谱补全技术领域。为了解决现有的基于设备信息知识图谱的问答系统因为图谱的稀疏特性导致的问答系统效率和准确率较低问题。针对电网设备知识图,本发明先训练基于文本的网络模型pπ,用于将知识图中的电网故障设备与故障原因(h,r,?)全部提取出来,然后通过pπ预测尾实体;同时训练基于结构的网络模型pθ,基于结构的网络模型pθ输出电网故障知识的图结构表示;然后采用变分EM算法和互相学习算法的联合训练方法对基于文本的网络模型pπ和基于结构的网络模型pθ进行训练,从而实现电网设备知识图进行补全。
-
公开(公告)号:CN115099234A
公开(公告)日:2022-09-23
申请号:CN202210835983.5
申请日:2022-07-15
Applicant: 哈尔滨工业大学
IPC: G06F40/289 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 一种基于图神经网络的中文多模态细粒度情感分析方法,涉及自然语言处理技术领域,针对现有技术中对多模态数据中细粒度评价对象情感分析准确率低的问题,本通过挖掘图文两种模态下的细粒度语义线索,并通过构建多模态异构图显式建模两个模态下的细粒度语义线索,促进了跨模态的细粒度信息融合,有效提升了多模态图文细粒度情感分析的准确率。
-
公开(公告)号:CN113312453A
公开(公告)日:2021-08-27
申请号:CN202110667409.9
申请日:2021-06-16
Applicant: 哈尔滨工业大学
IPC: G06F16/33 , G06F16/332 , G06F16/35 , G06F40/58
Abstract: 一种面向跨语言对话理解的模型预训练系统,本发明涉及面向跨语言对话理解的模型预训练系统。本发明的目的是为了解决现有跨语言对话理解场景下由于小语种语料稀缺而导致模型训练效果有限,无法获得准确的对话理解系统,对用户话语无法完成准确的回复的问题。一种面向跨语言对话理解的模型预训练系统包括:数据采集模块、对话领域标签整理合并模块、训练语料整理模块、目标语种确定模块、静态词典确定模块、单词替换模块、编码模块、单词替换预测模块、样本所属对话领域预测模块、整体模型获取模块、训练模块和跨语言对话理解领域下游任务精调模块。本发明用于跨语言对话理解领域。
-
公开(公告)号:CN110309267A
公开(公告)日:2019-10-08
申请号:CN201910609351.5
申请日:2019-07-08
Applicant: 哈尔滨工业大学
Abstract: 本发明提供一种基于预训练模型的语义检索方法和系统。该方法包括:采用标注数据对预训练语义表示模型进行训练,获得满足设定优化目标的经训练的预训练语义表示模型;将句子库中的句子输入到所述经训练的预训练语义表示模型,获得该句子库中句子的向量表示;对所述句子库中的句子的向量表示建立语义索引,获得句子库的语义索引;将待查询语句输入到所述经训练的预训练语义表示模型,获得待查询语句的向量表示;将所述待查询语句的向量表示和所述句子库的语义索引进行匹配,获得查询结果。本发明的方法和系统能够提高语义检索的准确率和效率。
-
公开(公告)号:CN119721244A
公开(公告)日:2025-03-28
申请号:CN202411799156.0
申请日:2024-12-09
Applicant: 哈尔滨工业大学
IPC: G06N5/04 , G06F16/36 , G06F16/31 , G06F16/334 , G06F40/284 , G06F40/226
Abstract: 一种基于邻接矩阵与投机解码的大模型推理方法及系统,它属于大模型推理技术领域。本发明解决了现有方法的加速能力有限,且构造草稿单词序列时没有充分利用大模型在解码过程中产生的其他候选单词的问题。本发明具体为:步骤1、构建用于存储词表中每个单词的k个候选单词的邻接矩阵;步骤2、根据输入查询序列从邻接矩阵中检索出由草稿单词序列组成的草稿树;步骤3、利用草稿树中的节点构造一个压缩序列,并基于草稿树构造注意力掩码矩阵;步骤4、将注意力掩码矩阵和压缩序列输入大模型,利用大模型对草稿树中的各个草稿单词序列进行验证得到推理结果,并更新邻接矩阵。本发明方法可以应用于大模型推理。
-
公开(公告)号:CN119274192A
公开(公告)日:2025-01-07
申请号:CN202411292090.6
申请日:2024-09-14
Applicant: 哈尔滨工业大学
Abstract: 本发明属于多模态大模型领域,尤其涉及一种面向多模态大模型的多粒度数据集构建方法、设备以及存储介质。本发明目的是解决现有多模态大模型存在对图像内容理解能力差的问题。提出了种面向多模态大模型的多粒度数据集构建方法,包括:收集数据集;对数据集中的所有图像进行处理,得到预处理后的图像;预处理后的细粒度对象注释;数据集中所有图像的粗粒度字幕注释;细粒度对象类别标签描述;最终构建多模态大模型的多粒度数据集。多模态大模型的多粒度数据集解决了现有的多模态大模型训练集只使用粗粒度注释,忽视了细粒度注释,从而导致了模型对概念理解的不够深入,限制了模型的多模态任务性能差的问题。
-
-
-
-
-
-
-
-
-