一种文本标注提取方法
    2.
    发明公开

    公开(公告)号:CN114238554A

    公开(公告)日:2022-03-25

    申请号:CN202010942991.0

    申请日:2020-09-09

    Abstract: 本申请提供一种文本标注提取方法。方法应用于人工智能领域。方法包括:服务器接收并响应电子设备发送第一标注请求,启动动态标注服务,其中,动态标注服务对应有第一动态标注模型;服务器接收电子设备发送的第一文本序列以及第一文本序列对应的第一标注信息,其中,第一文本序列包括第一文本信息和第二标签;服务器获取第二文本序列;当第一文本序列的数量大于第一阈值时,服务器通过第一动态标注模型确定出第二文本序列的第二标注信息;服务器基于第二标注信息,提取出第二文本序列中带有第二标签的属性的文字。通过这种方法,当自动标注模型的标注标签变化时,无需重新训练模型,能够提高自动标注的效率和准确性。

    一种中文分词增量学习方法

    公开(公告)号:CN105068996A

    公开(公告)日:2015-11-18

    申请号:CN201510604035.0

    申请日:2015-09-21

    Abstract: 一种中文分词增量学习方法,涉及中文分词领域。本发明为了解决现有的在源领域切分数据的基础上加入目标领域数据混合训练数据的方法存在的每次数据混合都需要重新训练模型和数据处理量非常大时导致的运算时间长、对硬件要求高的问题。本发明首先对中文语句集合中的语句xn进行人工标注标记,将已进行人工标记的语句(xn,yn)记为训练集;对中文语句集合中特征的权重向量W进行初始化,针对中文语句集合中的N个语句,计算每个语句权重向量Wn;然后进行T次迭代操作,然后计算权重向量平均值当中文语句集合中引入增量中文语句集合时,计算出增量中文语句集合的权重向量平均值求得中文分词增量权重参数完成中文分词增量的学习。本发明适用中文分词领域。

    基于聚类的Text-to-SQL示例合成方法、设备以及存储介质

    公开(公告)号:CN119377711A

    公开(公告)日:2025-01-28

    申请号:CN202411492400.9

    申请日:2024-10-24

    Abstract: 本发明属于自然语言处理领域,尤其基于聚类的Text‑to‑SQL示例合成方法、设备以及存储介质。本发明目的是解决现有的方法依赖于人工标注的示例池导致大模型性能根据用户问题生成SQL语句准确率低的问题,采用基于人工标注,获取原示例池;采用聚类方法将步骤一获取的原示例池中的示例划分为N个子示例池;根据划分后的N个子示例池进行合成,得到合成示例池;所述合成示例池包括M个合成示例;将合成示例池加入原示例池中,得到融合示例池,增强示例池多样性,从而降低示例标注的开销,解决了依赖于人工标注的示例池导致大模型性能根据用户问题生成SQL语句准确率低的问题。

    一种面向跨语言对话理解的模型预训练系统

    公开(公告)号:CN113312453A

    公开(公告)日:2021-08-27

    申请号:CN202110667409.9

    申请日:2021-06-16

    Abstract: 一种面向跨语言对话理解的模型预训练系统,本发明涉及面向跨语言对话理解的模型预训练系统。本发明的目的是为了解决现有跨语言对话理解场景下由于小语种语料稀缺而导致模型训练效果有限,无法获得准确的对话理解系统,对用户话语无法完成准确的回复的问题。一种面向跨语言对话理解的模型预训练系统包括:数据采集模块、对话领域标签整理合并模块、训练语料整理模块、目标语种确定模块、静态词典确定模块、单词替换模块、编码模块、单词替换预测模块、样本所属对话领域预测模块、整体模型获取模块、训练模块和跨语言对话理解领域下游任务精调模块。本发明用于跨语言对话理解领域。

    基于预训练模型的语义检索方法和系统

    公开(公告)号:CN110309267A

    公开(公告)日:2019-10-08

    申请号:CN201910609351.5

    申请日:2019-07-08

    Abstract: 本发明提供一种基于预训练模型的语义检索方法和系统。该方法包括:采用标注数据对预训练语义表示模型进行训练,获得满足设定优化目标的经训练的预训练语义表示模型;将句子库中的句子输入到所述经训练的预训练语义表示模型,获得该句子库中句子的向量表示;对所述句子库中的句子的向量表示建立语义索引,获得句子库的语义索引;将待查询语句输入到所述经训练的预训练语义表示模型,获得待查询语句的向量表示;将所述待查询语句的向量表示和所述句子库的语义索引进行匹配,获得查询结果。本发明的方法和系统能够提高语义检索的准确率和效率。

    一种基于邻接矩阵与投机解码的大模型推理方法及系统

    公开(公告)号:CN119721244A

    公开(公告)日:2025-03-28

    申请号:CN202411799156.0

    申请日:2024-12-09

    Abstract: 一种基于邻接矩阵与投机解码的大模型推理方法及系统,它属于大模型推理技术领域。本发明解决了现有方法的加速能力有限,且构造草稿单词序列时没有充分利用大模型在解码过程中产生的其他候选单词的问题。本发明具体为:步骤1、构建用于存储词表中每个单词的k个候选单词的邻接矩阵;步骤2、根据输入查询序列从邻接矩阵中检索出由草稿单词序列组成的草稿树;步骤3、利用草稿树中的节点构造一个压缩序列,并基于草稿树构造注意力掩码矩阵;步骤4、将注意力掩码矩阵和压缩序列输入大模型,利用大模型对草稿树中的各个草稿单词序列进行验证得到推理结果,并更新邻接矩阵。本发明方法可以应用于大模型推理。

    一种面向多模态大模型的多粒度数据集构建方法、设备以及存储介质

    公开(公告)号:CN119274192A

    公开(公告)日:2025-01-07

    申请号:CN202411292090.6

    申请日:2024-09-14

    Abstract: 本发明属于多模态大模型领域,尤其涉及一种面向多模态大模型的多粒度数据集构建方法、设备以及存储介质。本发明目的是解决现有多模态大模型存在对图像内容理解能力差的问题。提出了种面向多模态大模型的多粒度数据集构建方法,包括:收集数据集;对数据集中的所有图像进行处理,得到预处理后的图像;预处理后的细粒度对象注释;数据集中所有图像的粗粒度字幕注释;细粒度对象类别标签描述;最终构建多模态大模型的多粒度数据集。多模态大模型的多粒度数据集解决了现有的多模态大模型训练集只使用粗粒度注释,忽视了细粒度注释,从而导致了模型对概念理解的不够深入,限制了模型的多模态任务性能差的问题。

Patent Agency Ranking