文本处理模型的训练方法、文本处理方法及装置

    公开(公告)号:CN116432662A

    公开(公告)日:2023-07-14

    申请号:CN202310410748.8

    申请日:2023-04-17

    发明人: 伍星 林梓佳

    摘要: 本公开提供了一种文本处理模型的训练方法、文本训练方法、装置、设备、介质,涉及深度学习技术领域。该方法包括:获取训练数据集与预先构建的初始神经网络模型;生成原始文本对应的第一掩码文本向量与第二掩码文本向量;对第一掩码文本向量进行编码处理,得到原始文本语义向量,根据原始文本语义向量与第二掩码文本向量的对比结果,确定文本重构损失函数;根据原始文本语义向量与上下文掩码文本向量的对比结果,确定关联文本损失函数;基于文本重构损失函数与关联文本损失函数,调整初始神经网络模型的模型参数,得到文本处理模型。本公开综合考虑文本语义信息与上下文文本跨度之间的语义相关性信息进行建模,可以有效改进模型性能。

    文本生成模型的训练方法、装置、电子设备及存储介质

    公开(公告)号:CN116011445A

    公开(公告)日:2023-04-25

    申请号:CN202310012566.5

    申请日:2023-01-05

    摘要: 本公开关于一种文本生成模型的训练方法、装置、电子设备及存储介质,该方法包括:对文本样本中连续的至少两个词进行掩码操作,得到包括掩码片段的掩码文本;根据文本样本和掩码文本,对自然语言理解模型进行训练;将掩码文本输入训练完成的自然语言理解模型,得到针对掩码片段的第一输出结果,并将掩码文本输入文本生成模型,得到针对掩码片段的第二输出结果;根据第二输出结果和第一输出结果,确定文本生成模型的第一损失函数值,根据第二输出结果和文本样本,确定文本生成模型的第二损失函数值;根据第一损失函数值和第二损失函数值,对文本生成模型的网络参数进行调整,获得预训练完成的文本生成模型。本公开可以提高文本生成结果的准确性。

    一种标题生成方法、装置、设备及存储介质

    公开(公告)号:CN115374774A

    公开(公告)日:2022-11-22

    申请号:CN202210926120.9

    申请日:2022-08-03

    IPC分类号: G06F40/258 G06K9/62 G06F16/48

    摘要: 本公开关于一种标题生成方法、装置、设备及存储介质,涉及互联网技术领域,可以解决通用的标题生成方法效率低的问题。该标题生成方法包括:获取目标多媒体资源的目标资源数据;目标资源数据包括目标多媒体资源的初始标题和资源内容;将目标资源数据输入到预先训练好的标题生成模型中,以得到目标多媒体资源的第一推送标题;标题生成模型是根据第一样本多媒体资源的第一样本资源数据训练得到的;第一样本资源数据包括:第一样本多媒体资源的初始标题、推送标题和资源内容。

    文本语料处理方法、装置、电子设备和存储介质

    公开(公告)号:CN118261152A

    公开(公告)日:2024-06-28

    申请号:CN202410275602.1

    申请日:2024-03-11

    摘要: 本公开关于一种文本语料处理方法、装置、电子设备和存储介质,该方法包括:从多个文本语料库中采样得到多组文本语料;其中,不同文本语料库之间至少关于文本语料的来源、规模和种类不同;多组文本语料中包括至少两种不同语言类型的文本语料;对多组文本语料进行切分,得到对应的多个文本语料序列;在各文本语料序列中不同语料类型的语料元素被切分开;基于多个文本语料序列分别提取字词组合,得到代表多个文本语料库的词汇表;词汇表应用于训练分词器。上述方案,可以提升不同语言的文本语料处理的灵活性和泛化能力,使得构建出的词汇表的准确性更高以及效率更快,有利于后续基于该词汇表训练出质量更高、性能更强的分词器。

    大语言模型的训练方法、装置、电子设备及存储介质

    公开(公告)号:CN118211065A

    公开(公告)日:2024-06-18

    申请号:CN202410275666.1

    申请日:2024-03-11

    发明人: 叶忻 林梓佳

    摘要: 本公开关于一种大语言模型的训练方法、装置、电子设备及存储介质,该方法包括:在对大语言模型训练的当前阶段,通过前一阶段训练后的代理模型对当前训练数据集中的训练文本进行分类,得到第一分类结果;根据第一分类结果,对前一阶段训练后的大语言模型进行当前阶段的训练;根据第一分类结果,对前一阶段的代理模型进行训练,得到当前阶段的代理模型;通过代理模型对训练文本进行分类,得到第二分类结果;对第二分类结果进行校对,得到校对结果;根据校对结果对代理模型进行重新训练,得到当前阶段重新训练后的代理模型;将下一阶段作为当前阶段,并迭代执行上述各步骤,直至所述大语言模型训练完成。本公开可以提高训练效率,减少计算资源消耗。

    预训练语料处理方法、装置、电子设备及存储介质

    公开(公告)号:CN118036612A

    公开(公告)日:2024-05-14

    申请号:CN202410116759.X

    申请日:2024-01-26

    IPC分类号: G06F40/30 G06F18/214 G06N3/08

    摘要: 本公开关于一种预训练语料处理方法、装置、电子设备及存储介质,该方法包括:根据预训练语料中的语义单元,将预训练语料切分为多个初始语料块,每个初始语料块为语义单元或者纯文本;在所述初始语料块为纯文本时,根据换行符,将初始语料块切分为多个第一语料子块;在初始语料块为语义单元时,根据初始语料块的标记化后长度,将初始语料块切分为一个或多个第二语料子块;根据各语料子块在预训练语料中的顺序,将至少一个语料子块组合为目标语料块,目标语料块的标记化后长度小于或等于所述序列长度,语料子块包括所述第一语料子块或所述第二语料子块。本公开实施例可以将整个目标语料块作为一个样本,保证了样本的语义信息的完整性。

    文本处理模型生成方法、装置、电子设备和存储介质

    公开(公告)号:CN116070615A

    公开(公告)日:2023-05-05

    申请号:CN202310102691.5

    申请日:2023-01-29

    发明人: 伍星 林梓佳

    IPC分类号: G06F40/20 G06N3/08

    摘要: 本公开关于文本处理模型生成方法、装置、电子设备和存储介质,该方法包括:通过对待训练文本表征模型进行神经元丢弃处理,得到正文本表征模型,将样本文本信息和初始文本表征信息分别输入到待训练文本表征模型和正文本表征模型中,得到样本文本表征信息以及正样本文本表征信息。对样本文本信息进行掩码处理,得到掩码信息,并将掩码信息和初始文本表征信息输入到掩码生成判别器和掩码生成器中,得到掩码检测结果和掩码复原结果。基于样本文本表征信息、正样本文本表征信息、掩码检测结果、掩码复原结果和样本文本信息进行模型训练,得到文本处理模型。该方法可以从多个角度丰富待训练文本表征模型的可识别特征,提高了文本表征模型的准确性。

    数据生成方法、装置、电子设备和存储介质

    公开(公告)号:CN115983289A

    公开(公告)日:2023-04-18

    申请号:CN202310026051.0

    申请日:2023-01-09

    发明人: 伍星 林梓佳

    摘要: 本公开关于一种数据生成方法、装置、电子设备、存储介质,所述方法包括:获取原始数据集合,以及基于原始数据集合得到的扩增数据集合;根据每个原始数据进行语言转换后的原始转译数据,得到原始转译数据集合,以及根据每个扩增数据进行语言转换后的扩增转译数据,得到扩增转译数据集合;根据原始转译数据集合和扩增转译数据集合,确定多个转译数据对;从多个转译数据对中确定出至少一个目标转译数据对;每个目标转译数据对中的两个转译数据的语义相似度大于或等于预设相似度阈值;基于至少一个目标转译数据对,从原始数据集合和扩增数据集合中,筛选出至少一个目标数据对。采用本方法能够实现可控的数据增强,提升了数据增强效果。