一种模型训练方法及其相关设备
    1.
    发明公开

    公开(公告)号:CN117422122A

    公开(公告)日:2024-01-19

    申请号:CN202310492136.8

    申请日:2023-05-04

    发明人: 任晓哲 姜卓 蒋欣

    摘要: 本申请公开了一种模型训练方法及其相关设备,可降低模型的训练过程所需的总时间成本。本申请的方法包括:在待训练模型的第t次迭代中,得到待训练模型的第N层在第t次迭代中的梯度后,可立即基于第t‑1次迭代中的全局梯度范数的移动平均值MGGN,对第N层在第t次迭代中的梯度进行归一化,从而得到第N层在第t次迭代中的归一化后的梯度,以此类推,得到第1层在第t次迭代中的梯度后,可立即基于第t‑1次迭代中的MGGN,对第1层在第t次迭代中的梯度进行归一化,从而得到第1层在第t次迭代中的归一化后的梯度。如此一来,可基于第1层至第N层在第t次迭代中的归一化后的梯度,对第1层至第N层的参数进行更新,从而完成了待训练模型的第t次迭代。

    一种数据处理方法及相关设备
    2.
    发明公开

    公开(公告)号:CN116432019A

    公开(公告)日:2023-07-14

    申请号:CN202211586646.3

    申请日:2022-12-09

    摘要: 一种数据处理方法,应用于预训练模型,方法包括:通过第一预训练语言模型PLM,处理文本数据,得到目标特征表示;其中,第一PLM包括一个或多个第一网络层,目标特征表示为根据一个或多个第一网络层输出的第一特征表示得到;通过第二PLM,处理文本数据;第二PLM包括第一注意力层以及与第一注意力层连接的第二网络层;第一注意力层的输入包括目标特征表示以及第二网络层输出的第二特征表示。本申请从通用预训练语言模型中构建通用记忆知识表征,然后通过记忆增强层(第一注意力层)将其融合到特定领域的预训练语言模型(第二PLM)中,使得特定领域的预训练语言模型能够获取遗忘的通用领域知识,减少了预训练过程中出现的灾难性遗忘问题。

    语言处理方法、装置及存储介质
    3.
    发明公开

    公开(公告)号:CN115712701A

    公开(公告)日:2023-02-24

    申请号:CN202211448071.9

    申请日:2022-11-18

    IPC分类号: G06F16/33 G06N3/0464 G06N3/08

    摘要: 本申请涉及自然语言处理领域,尤其涉及一种语言处理方法、装置及存储介质。所述方法包括:获取目标语言处理任务的待处理文本和第一提示信息,第一提示信息为任意长度的文本序列;将第一提示信息编码成第二提示信息,第二提示信息为固定长度的向量组;将第二提示信息与待处理文本进行拼接处理,得到拼接后的待处理文本;将拼接后的待处理文本输入至预先训练完成的目标语言模型中进行处理。本申请实施例设计并实现了一种方案,将任意长度的第一提示信息编码成固定长度的第二提示信息,将第二提示信息与待处理文本进行拼接后进行语言处理,解决了提示信息的长度严重受限于预训练语言模型的输入最大长度的问题,提升了语言处理效果。

    数据标注方法、装置及存储介质

    公开(公告)号:CN111492364B

    公开(公告)日:2022-09-23

    申请号:CN201780097681.X

    申请日:2017-12-15

    发明人: 吴斌 蒋欣

    IPC分类号: G06F40/20

    摘要: 本申请提供了一种数据标注方法、装置及存储介质,涉及中文信息处理领域,所述数据标注方法包括:从样本语料中确定M个第一备选新词;基于每个第一备选新词的统计信息,或者统计信息和内部属性,通过指定新词打分算法对M个第一备选新词进行打分;基于M个第一备选新词的得分,从M个第一备选新词中确定N个第一种子新词;基于N个第一种子新词对样本语料进行词语标注,得到样本语料中每个字的第一样本标签。本申请通过直接从样本语料中准确地识别出新词,然后基于准确识别的新词对样本语料进行标注,可以避免使用分词工具分词带来的错误,提高词语标注的准确性。

    一种模型蒸馏方法及相关设备
    5.
    发明公开

    公开(公告)号:CN113850362A

    公开(公告)日:2021-12-28

    申请号:CN202110962700.9

    申请日:2021-08-20

    IPC分类号: G06N3/02 G06N3/04 G06N3/08

    摘要: 本申请涉及人工智能领域,公开了一种模型蒸馏方法,包括:在计算节点集群的第一计算节点处,通过学生模型的部分模型以及老师模型的部分模型,对学生模型进行蒸馏,且在蒸馏的梯度回传过程在第一计算节点的内部进行,不依赖于其他计算节点完成所负责的网络层的蒸馏,以此实现更大的计算资源利用率,进而实现蒸馏过程的加速。

    基于社区问答的物品推荐方法、系统及用户设备

    公开(公告)号:CN108269110B

    公开(公告)日:2021-10-26

    申请号:CN201611263447.3

    申请日:2016-12-30

    发明人: 张希 马林 蒋欣 李航

    摘要: 本发明实施例提供一种基于社区问答的物品推荐方法,包括:获取针对目标物品的问题的文本信息,并将所述问题的文本信息与预设物品集合中的多个预设物品的模态内容信息分别构建二元组信息;将每一个所述二元组信息输入预设匹配模型,并结合预设匹配模型参数,计算每一个所述预设物品与所述问题的匹配分数;根据所述多个预设物品与所述针对目标物品的问题的匹配分数的高低,输出所述针对目标物品的问题的物品推荐列表。另,本发明实施例还提供一种基于社区问答的物品推荐系统及用户设备。所述物品推荐方法可以提升物品推荐的精确度。

    一种神经网络训练方法以及装置
    8.
    发明公开

    公开(公告)号:CN113505883A

    公开(公告)日:2021-10-15

    申请号:CN202110603464.1

    申请日:2021-05-31

    IPC分类号: G06N3/08 G06F40/40 G06K9/62

    摘要: 本申请公开了人工智能领域的一种神经网络训练方法以及装置,用于通过在资源约束条件的约束下进行同质搜索,减少搜索空间的大小,高效地搜索得到符合需求的模型。该方法包括:获取超预训练语言模型;获取资源约束条件以及超参数搜索空间,资源约束条件指示针对模型占用的资源的约束,超参数搜索空间指示模型的超参数的范围;在资源约束条件的约束下从超参数搜索空间中搜索出目标模型的结构,目标模型的至少两层网络层的超参数相同;对目标模型进行训练,得到训练后的目标模型。

    一种语音交互方法及电子设备
    9.
    发明公开

    公开(公告)号:CN113449068A

    公开(公告)日:2021-09-28

    申请号:CN202010232268.3

    申请日:2020-03-27

    发明人: 李伟国 钱莉 蒋欣

    IPC分类号: G06F16/33 G10L15/22 G10H1/00

    摘要: 本申请实施例提供一种语音交互方法及电子设备,涉及人工智能AI技术领域和语音处理技术领域,可以提高电子设备与用户交互的性能,从而为用户提供个性化的语音交互体验。具体方案包括:电子设备可以接收第二用户发出的第一语音信息;并响应于该第一语音信息,电子设备识别该第一语音信息。其中,第一语音信息用于请求与第一用户进行语音对话。基于电子设备识别第一语音信息是第二用户的语音信息,电子设备可以模拟第一用户的声音,并且按照第一用户与第二用户进行语音对话的方式,与第二用户进行语音对话。该方法可应用于通过智能机器人代替父母实现陪伴和教育儿童的场景中。

    训练语句复述模型的方法、语句复述方法及其装置

    公开(公告)号:CN112784003A

    公开(公告)日:2021-05-11

    申请号:CN201911061874.7

    申请日:2019-11-01

    摘要: 本申请涉及人工智能领域中的自然语言处理技术,提供了一种训练语句复述模型的方法、语句复述方法及其装置。该训练语句复述模型的方法包括:获取训练数据,所述训练数据包括多个语句,所述多个语句的语种不同,且所述多个语句具有相同含义;根据所述训练数据,训练语句复述模型,所述语句复述模型用于基于输入语句生成所述输入语句的复述语句。本申请实施例中的训练语句复述模型的方法,能够便捷地获得复述语句。