一种基于RLHF的自适应机器翻译方法及存储介质

    公开(公告)号:CN116976361A

    公开(公告)日:2023-10-31

    申请号:CN202310690301.0

    申请日:2023-06-12

    IPC分类号: G06F40/51 G06F40/58

    摘要: 本发明涉及机器翻译领域,提供了一种基于RLHF的自适应机器翻译方法及存储介质。解决现有方法在处理多义词和歧义词时存在不足、没有考虑上下文语境的影响导致翻译结果不准确,难以进一步提高翻译质量和准确性。主要方案包括设计RLHF算法,选择针对翻译任务改进的PPO算法作为RLHF策略,用于中根据用户反馈调整和改进翻译系统的神经机器翻译模型;设计改进后的多语言机器翻译网络,构建自适应机器翻译模型根据用户反馈调整和改进其翻译,收集用户反馈,根据用户反馈利用强化学习策略更新自适应机器翻译模型参数,利用收集到的用户反馈,根据改进的PPO算法,再次更新自适应机器翻译模型的参数,以达到提升翻译准确性的目的。

    一种基于大小数据融合的商品推荐方法及系统

    公开(公告)号:CN116843410A

    公开(公告)日:2023-10-03

    申请号:CN202310690252.0

    申请日:2023-06-12

    摘要: 本发明公开了一种基于大小数据融合的商品推荐方法及系统,属于自然语言处理技术领域,解决现有技术无法有效对购买行为进行深度与宽度分析,从而易造成分析结果不准确的问题。本发明采用两种编码器对用户画像进行编码融合,得到用户画像编码;对用户的浏览历史和购买历史类商品的文本信息进行编码,得到商品文本信息编码;融合用户画像编码和商品文本信息编码,得到融合向量;将融合向量分别输入指针解码网络和LSTM中进行解码,得到各商品的分数;将两个不同源的商品进行相同商品项归并,归并后取不同源中值最大的分数作为此商品的最终得分,并根据得到对所有商品进行排序,排序后将结果反馈给用户。本发明用于向用户进行商品推荐。

    一种基于行业知识的标签识别方法及装置

    公开(公告)号:CN116089610A

    公开(公告)日:2023-05-09

    申请号:CN202310043528.6

    申请日:2023-01-29

    摘要: 本发明涉及计算机领域,提供了一种基于行业知识的标签识别方法及装置。主旨在于在于通过本技术来解决标准标签识别问题。主要方案包对原始数据进行采样,获取业务系统中数据,并依据标准对标准标签构建层级关系,获得数据以及标准库中数据对应的标准标签;数据预处理,对采集到的数据表、字段以及字段下的样例数据附加上对应的标准标签;对数据向量化,将给定的数据经过预训练模型训练后获取向量化表示;对向量进行特征向量提取,使用深度神经网络,通过设置不同大小的过滤器和池化操作选择适合数据分类的特征向量,全连接层通过在融合层之后加入隐含层和最后的Softmax层充当一个分类器,对文本进行最终的分类,将得到的标准类别标签。

    产品与客户群体的匹配方法和系统

    公开(公告)号:CN111861759B

    公开(公告)日:2022-12-23

    申请号:CN202010542093.6

    申请日:2020-06-15

    IPC分类号: G06Q40/08 G06F16/9535

    摘要: 本发明公开了一种产品与客户群体的匹配方法和系统,该方法包括:获取用户输入的标签集合;计算所述标签集合对应的效用矩阵得到结果矩阵,其中,所述效用矩阵基于标签集合矩阵和偏好系数矩阵确定,所述标签集合矩阵表示对象与对象标签集合的对应关系,所述对象包括产品或者客户群体,所述偏好系数矩阵表示客户群体与产品之间的偏好度;根据所述结果矩阵的元素的值确定与所述标签集合匹配的目标标签集合;根据所述目标标签集合确定匹配的目标对象,所述目标对象包括目标产品或者目标客户群体。本实施例可以基于产品确定匹配的客户群体以及根据客户群体确定匹配度产品,提高产品与客户群体的匹配精度。

    一种基于优先级的实时ID拉通引擎方法

    公开(公告)号:CN109446215B

    公开(公告)日:2022-04-12

    申请号:CN201811294114.6

    申请日:2018-10-31

    IPC分类号: G06F16/23 G06F16/28

    摘要: 本发明公开了一种基于优先级的实时ID拉通引擎方法,包括如下步骤:S1、ID拉通引擎从kafka中获取实时的消费行为日志数据,并从行为日志数据中提取出所有的ID,然后找到mainID;每条行为日志数据中,mainID将会与除它自己之外的其它ID分别建立ID关系,即每条行为日志数据产出的ID关系的条数为n‑1,n为该行为日志数据中ID的数量;S2、根据步骤S1中生成的ID关系,更新数据库中ID关系的权重;S3、根据ID优先级由高到低的排序,逐级计算当前层级的ID的SuperID归属的变更。使用本发明的用户ID拉通解决方案,可以解决用户ID随着时间推移而变化这一现实问题;同时,准实时的实现(5s内)也可以满足互联网中推荐等其它技术的实时需求。

    检测数据源连接的方法、装置、存储介质及电子设备

    公开(公告)号:CN110855526B

    公开(公告)日:2022-03-29

    申请号:CN201911143589.X

    申请日:2019-11-20

    IPC分类号: H04L43/0811

    摘要: 本公开涉及一种检测数据源连接的方法、装置、存储介质及电子设备,首先获取待检测的目标数据源的连接地址信息,然后根据所述连接地址信息进行telnet验证,得到所述客户端与所述目标数据源的网络服务连通结果,所述网络服务连通结果用于表示所述客户端与所述目标数据源之间的网络是否连通,若所述网络服务连通结果表示所述客户端与所述目标数据源之间的网络不连通,输出第一提示信息,所述第一提示信息用于提示用户所述客户端与所述目标数据源之间的网络不连通。

    一种全生命周期数据地图生成系统、方法

    公开(公告)号:CN112732987A

    公开(公告)日:2021-04-30

    申请号:CN202011642227.8

    申请日:2020-12-31

    摘要: 本申请公开一种全生命周期数据地图生成系统,由多源异构数据接入任务获取数据源的数据,由数据转换任务、数据治理任务和多样化数据处理脚本任务分别确定第一血缘关系、第二血缘关系和第三血缘关系,由数据源表多维统计任务确定第一数据和第二数据在指定分析维度下的信息;由数据地图生成模块根据该些血缘关系和所述指定分析维度下的信息生成数据地图并展示,从而解决了现有技术中的数据地图生成与展示方式,无法生成并展示不同分析维度下的信息和多源数据之间的血缘关系的问题,有效丰富数据地图的信息展示分析维度,提升数据地图信息的分析结果的适用宽度。本申请还公开一种全生命周期数据地图生成方法。