一种基于RLHF的自适应机器翻译方法及存储介质

    公开(公告)号:CN116976361A

    公开(公告)日:2023-10-31

    申请号:CN202310690301.0

    申请日:2023-06-12

    IPC分类号: G06F40/51 G06F40/58

    摘要: 本发明涉及机器翻译领域,提供了一种基于RLHF的自适应机器翻译方法及存储介质。解决现有方法在处理多义词和歧义词时存在不足、没有考虑上下文语境的影响导致翻译结果不准确,难以进一步提高翻译质量和准确性。主要方案包括设计RLHF算法,选择针对翻译任务改进的PPO算法作为RLHF策略,用于中根据用户反馈调整和改进翻译系统的神经机器翻译模型;设计改进后的多语言机器翻译网络,构建自适应机器翻译模型根据用户反馈调整和改进其翻译,收集用户反馈,根据用户反馈利用强化学习策略更新自适应机器翻译模型参数,利用收集到的用户反馈,根据改进的PPO算法,再次更新自适应机器翻译模型的参数,以达到提升翻译准确性的目的。

    一种持续自学习的多语言神经机器翻译方法及存储介质

    公开(公告)号:CN117252212A

    公开(公告)日:2023-12-19

    申请号:CN202310690228.7

    申请日:2023-06-12

    IPC分类号: G06F40/58 G06N20/00

    摘要: 本发明涉及多语言机器翻译技术,特别是一种持续自学习的多语言神经机器翻译方法及存储介质。主旨在于解决多语言机器翻译缺少持续自学习能力的问题,传统的多语言机器翻译方法在模型训练后缺乏有效的增量学习机制,导致难以对新的数据和任务进行迭代式训练和快速更新。主要方案包括利用大量的单语语料,将模型在多种语言的单语语料库上预训练一个序列到序列的机器翻译模型,并分批量的持续将新语种的数据融合已有语种的双语平行数据微调机器翻译模型,使得机器翻译模型利用已有语种的知识,不断加入学习新的低资源语种,持续自学习,实现在更多语种上的优化。

    身份数据的挖掘方法、装置、存储介质及电子设备

    公开(公告)号:CN116611948A

    公开(公告)日:2023-08-18

    申请号:CN202310440968.5

    申请日:2023-04-21

    摘要: 本公开涉及一种身份数据的挖掘方法、装置、存储介质及电子设备,该方法包括:获取待识别视频数据的公开信息,公开信息包括视频发布时间和视频特征信息,确定播放待识别视频数据所需要的数据消耗量,根据数据消耗量和视频特征信息,确定待识别视频数据的视频原始大小,从网络详细记录中筛选视频发布时间以前与视频原始大小匹配的目标网络记录,根据目标网络记录,确定待识别视频数据对应视频发布者的身份数据。从而根据视频数据的公开信息计算视频的原始大小,从网络详细记录中筛选出与视频发布时间和原始大小相匹配的身份数据。基于用户的视频发布行为和网络详细记录,确定出视频发布者的真实身份数据。

    社交网络分析方法、装置、电子设备和存储介质

    公开(公告)号:CN116051306A

    公开(公告)日:2023-05-02

    申请号:CN202310324284.9

    申请日:2023-03-29

    IPC分类号: G06Q50/00 G06F18/23 G06F18/22

    摘要: 本公开涉及一种社交网络分析方法、装置、电子设备和存储介质,该方法包括:获取目标社交网络,目标社交网络包括多个用户节点以及表征多个用户节点之间的互动关系的多条互动边,以社区适应度最大为目标,对目标社交网络中的多个用户节点进行社区划分,得到第一社区划分结果,以社区内的互动边的紧密度最大为目标,对目标社交网络中的多个用户节点进行社区划分,得到第二社区划分结果,根据第一社区划分结果和第二社区划分结果,得到目标社区划分结果,从而实现了基于用户的社区识别和基于用户间的社交互动关系的社区识别。能够使得到的目标社区划分结果能够更加准确,从而能够更加准确地对社交网络进行有效分析。