离线元强化学习模型训练方法、装置、设备、介质及产品

    公开(公告)号:CN119250156B

    公开(公告)日:2025-03-21

    申请号:CN202411758866.9

    申请日:2024-12-03

    Abstract: 本发明提供一种离线元强化学习模型训练方法、装置、设备、介质及产品,涉及人工智能技术领域,方法包括:基于不同训练任务之间的相似度对上下文编码器进行训练,以最小化相似度高于阈值的训练任务的表示向量之间的距离,最大化相似度低于阈值的训练任务的表示向量之间的距离;基于保守Q学习对Q函数网络进行训练,以最小化标准贝尔曼误差,和最小化训练策略对应的Q值与行为策略对应的Q值之间的差距;基于行为正则化演员评判家对策略网络进行训练,以限制训练策略与行为策略之间的差异;根据训练好的上下文编码器、Q函数网络和策略网络,得到训练好的离线元强化学习模型。本发明实现增强离线元强化学习模型的性能表现、鲁棒性和泛化能力。

    离线元强化学习模型训练方法、装置、设备、介质及产品

    公开(公告)号:CN119250156A

    公开(公告)日:2025-01-03

    申请号:CN202411758866.9

    申请日:2024-12-03

    Abstract: 本发明提供一种离线元强化学习模型训练方法、装置、设备、介质及产品,涉及人工智能技术领域,方法包括:基于不同训练任务之间的相似度对上下文编码器进行训练,以最小化相似度高于阈值的训练任务的表示向量之间的距离,最大化相似度低于阈值的训练任务的表示向量之间的距离;基于保守Q学习对Q函数网络进行训练,以最小化标准贝尔曼误差,和最小化训练策略对应的Q值与行为策略对应的Q值之间的差距;基于行为正则化演员评判家对策略网络进行训练,以限制训练策略与行为策略之间的差异;根据训练好的上下文编码器、Q函数网络和策略网络,得到训练好的离线元强化学习模型。本发明实现增强离线元强化学习模型的性能表现、鲁棒性和泛化能力。

    基于词表扩充的语种间语义对齐方法、装置及电子设备

    公开(公告)号:CN118607532A

    公开(公告)日:2024-09-06

    申请号:CN202410691440.X

    申请日:2024-05-30

    Abstract: 本申请提供一种基于词表扩充的语种间语义对齐方法、装置及电子设备。该方法包括:从目标语言的语料中提取所述目标语言的token;将目标语言的token作为扩充token对原语言模型进行词表扩充;通过微调词表扩充后的原语言模型将所述扩充token嵌入到预训练语言的语义空间中。本申请提供的基于词表扩充的语种间语义对齐方法、装置及电子设备,将目标语言以新添加的token形式嵌入到预训练语言的语义空间中,增强模型处理多语言任务的能力的同时,提升了模型对目标语言的文本理解和生成能力。

    词向量的生成方法、装置、电子设备及存储介质

    公开(公告)号:CN116306649A

    公开(公告)日:2023-06-23

    申请号:CN202310181570.4

    申请日:2023-02-20

    Abstract: 本发明提供一种词向量的生成方法、装置、电子设备及存储介质,该方法包括:获取至少一个目标词,所述目标词包括所述词典中的至少一个第一词汇,和/或,所述知识库中的至少一个头实体,所述知识库中包括至少两个用于表示知识的三元组数据;确定各所述目标词对应的至少一个释义词,所述释义词包括用于解释所述第一词汇的第二词汇,和/或,所述头实体对应的关系和尾实体;基于所述目标词和所述释义词,确定词向量矩阵,所述词向量矩阵的每一行表示一个词向量,所述词向量用于表征所述目标词或所述释义词的语义信息。本发明提供的词向量的生成方法、装置、电子设备及存储介质可以增强词向量的可解释性。

    语音转录文本聚类方法、装置、电子设备和存储介质

    公开(公告)号:CN115238068A

    公开(公告)日:2022-10-25

    申请号:CN202210709135.X

    申请日:2022-06-21

    Abstract: 本发明提供一种语音转录文本聚类方法、装置、电子设备和存储介质,所述方法包括:提取各语音转录文本的向量表示;将各语音转录文本的向量表示输入至文本聚类模型,得到文本聚类模型输出的各语音转录文本的聚类结果;本发明以最小化相同样本语音转录文本的向量表示之间的距离,最大化不同样本语音转录文本的向量表示之间的距离,最小化样本语音转录文本的向量表示与其所属类别的语义向量之间的距离以及最大化样本语音转录文本的向量表示与其它类别的语义向量之间的距离为目标迭代更新训练得到文本聚类模型,最终使得文本聚类模型能够从文本层面和类别层面对各语音转录文本进行聚类,进而准确得到聚类结果。

    媒体转引类型的识别方法、装置、电子设备及存储介质

    公开(公告)号:CN114818733A

    公开(公告)日:2022-07-29

    申请号:CN202210555613.6

    申请日:2022-05-20

    Abstract: 本发明公开了一种媒体转引类型的识别方法、装置、电子设备及存储介质,属于自然语言处理领域。其中,该方法包括:将源媒体发布的源信息和转引媒体发布的转引信息输入预训练语言模型,分别得到源信息和转引信息的篇章表示向量以及句子表示向量;对源信息和转引信息的各句子表示向量进行双向交互式语义信息学习,得到双向的交互语义篇章表示向量;将基于预训练语言模型得到篇章表示向量和交互语义篇章表示向量进行融合,得到增强语义表示向量;根据所述增强语义表示向量进行媒体转引类型识别,得到媒体转引类型。通过本发明,实现了多层级、细粒度地增强篇章的语义表征能力,有效提升媒体转引类型的识别性能。

Patent Agency Ranking