基于多模态模型的图像特征提取方法、系统及电子设备

    公开(公告)号:CN118506374A

    公开(公告)日:2024-08-16

    申请号:CN202410662172.9

    申请日:2024-05-24

    摘要: 本发明涉及人工智能领域,具体提一种基于多模态模型的图像特征提取方法、系统及电子设备,旨在解决或至少部分地解决多模态模型在图像特征提取时,没有考虑任务需求,导致图像中重要信息在图像特征提取时丢失的技术问题。本发明方案为:通过所述多模态模型中的注意力模块,对与所述全局文本特征相关的查询向量Q、与所述全量视觉特征相关的关键向量K、指向量V,执行交叉注意力运算,提取与所述任务提示信息相关的图像特征。上述方案,实现了“使用任务相关的注意力机制从图像中抽取信息”,从而有效地保留了任务相关的图像特征,从而实现更加准确的图像理解,有利于下游任务的准确处理。

    基于多模态大模型的广告词生成方法、系统及电子设备

    公开(公告)号:CN118506346A

    公开(公告)日:2024-08-16

    申请号:CN202410659675.0

    申请日:2024-05-24

    发明人: 何方 王晶

    摘要: 本发明涉及人工智能领域,具体提一种基于多模态大模型的广告词生成方法、系统及电子设备,旨在解决或至少部分地解决由于受限于模板、缺乏有效利用商品图像信息,导致生成的商品广告词多样性不足和描述准确性不够的技术问题。本发明方案为:基于获取的商品图文样本标注数据,对多模态预训练模型进行训练,输出多模态大模型;基于广告词待生成的商品图像,通过多模态大模型进行处理,输出预设风格的商品广告词。该多模态大模型有效的捕捉了商品的视觉信息来生成突出卖点的商品广告词,实现更低的成本、更高效率且具有多样性、准确性更高。

    语音合成方法、系统、控制装置及存储介质

    公开(公告)号:CN118471187A

    公开(公告)日:2024-08-09

    申请号:CN202410666278.6

    申请日:2024-05-27

    IPC分类号: G10L13/02 G10L13/047

    摘要: 本申请涉及语音合成技术领域,具体提供一种语音合成方法、系统、控制装置及存储介质,旨在解决如何高效合成高质量语音的技术问题。为此目的,本申请的语音合成方法包括:获取输入数据,输入数据至少包括说话人信息和待合成语音的音素序列;基于输入数据,利用预设第一模型,得到第一聚类序列和第一音高序列;基于第一聚类序列和第一音高序列,生成目标音频信号。本申请通过预设模型,利用聚类的方式,得到用于生成目标音频信号的文本音素聚类序列和音高序列。通过本申请,精简了语音合成过程中的数据量,生成了更加真实生动的目标音频信号。

    一种基于多语种的多模态模型训练方法及装置

    公开(公告)号:CN118211076A

    公开(公告)日:2024-06-18

    申请号:CN202410413384.3

    申请日:2024-04-07

    摘要: 本发明涉及人工智能领域,具体提供一种基于多语种的多模态模型训练方法及装置,旨在解决由于部分语种多模态数据匮乏时,该语种多模态模型性能和鲁棒性不足的技术问题。为此目的,本发明的技术方案,包括:将平行语料库、第一多模态训练数据输入初始训练的第一多模态模型,获取平行语料特征向量、多模态文本特征向量、多模态非文本特征向量并计算特征向量之间的损失,建立多模态文本对应的第一语种与平行语料库中文本对应的第二语种之间的特征对齐,输出多语种的多模态模型。通过上述方案,解决了部分语种多模态数据匮乏所导致的该语种多模态模型性能和鲁棒性不足的技术问题。

    一种检测传送带跑偏的方法、控制装置、介质和系统

    公开(公告)号:CN117842623A

    公开(公告)日:2024-04-09

    申请号:CN202410187923.6

    申请日:2024-02-19

    发明人: 吴伟群

    IPC分类号: B65G43/00

    摘要: 本发明涉及传送带运输监测领域,具体公开了一种检测传送带跑偏的方法、控制装置、介质和系统。本发明检测传送带跑偏的方法包括:接收传送带两侧托辊的监测图像;基于视觉目标检测,根据所述图像得到所述托辊的位置和数量;根据所述托辊的位置和数量,判断所述传送带是否跑偏。本发明实现准确且稳定的传送带跑偏检测。

    一种视频实时回放方法、装置、机器可读介质及设备

    公开(公告)号:CN117041655A

    公开(公告)日:2023-11-10

    申请号:CN202311151543.9

    申请日:2023-09-07

    发明人: 俞晓臣

    摘要: 本发明公开了一种视频实时回放方法,包括:获取包含目标对象的待分析视频;通过预先构建的数据采集框架对所述待分析视频进行行为检测,以获取所述用户的一个或多个行为数据;所述数据采集框架包括多种类型的多个埋点组件,所述埋点组件用于采集用户的行为数据;对对应所述多个行为数据的视频流进行播放。本发明针对目前存在的问题,将各种组件进行数据埋点,数据埋点的目的是客户在点击某组件后,对埋点组件采集的数据进行消息机制的留存,如此就可以实时地知道用户进行了哪些操作,访问了哪些页面,做了哪些跳转等行为操作。

    一种人体动作识别方法、装置及介质

    公开(公告)号:CN116665303A

    公开(公告)日:2023-08-29

    申请号:CN202310665414.5

    申请日:2023-06-06

    发明人: 商越 陈静

    摘要: 本发明涉及动作识别的技术领域,具体提供一种人体动作识别方法、装置及介质,旨在解决在识别人体动作时,能够同时兼顾识别精度和识别速度的技术问题。为此目的,本发明获取待识别的视频数据,通过预设的关键点模型对视频数据进行第一动作预测,获得第一动作预测结果,基于第一动作预测结果,通过预设的图像模型进行第二动作预测,获得第二动作预测结果。通过上述配置方式,本发明能够有效提升识别的速度和降低动作识别的误识别数量。使用关键点模型预测作为前置过滤环节,一定程度上可以过滤掉图像模型可能错误预测的序列,从而有效降低动作识别的误识别数量。

    虚拟人表情生成方法、系统、控制装置及可读存储介质

    公开(公告)号:CN116630494A

    公开(公告)日:2023-08-22

    申请号:CN202310639827.6

    申请日:2023-05-31

    发明人: 于淼 吴天舒 温浩

    摘要: 本发明涉及深度学习技术领域,具体提供一种虚拟人表情生成方法、系统、控制装置及可读存储介质,旨在解决如何更为高效、低成本地生成虚拟数字人表情的问题。为此目的,本发明根据采集的语音数据,获取语音特征,并对语音特征进行采样,获得采样语音特征,根据采样语音特征,应用神经网络模型进行人脸表情预测,基于预测获得的最终人脸表情参数,应用生成对抗网络模型或渲染工具,对虚拟人进行渲染,获得包含虚拟人表情的虚拟人动画信息。本发明不受限于特定维度下的表情参数维度,可以根据表情动画的精细度需求进行动态调整,且能够脱离动捕演员就能生成表情参数,全流程都不需要人工参与,具有精度高、速度快,成本低、适用范围广的优点。

    一种图像行为识别模型训练方法及图像行为识别方法

    公开(公告)号:CN116597254A

    公开(公告)日:2023-08-15

    申请号:CN202310597037.6

    申请日:2023-05-24

    发明人: 杨博 温浩 吴天舒

    摘要: 本发明涉及计算机视觉技术领域,具体提供一种图像行为识别模型训练方法及图像行为识别方法,旨在解决现有的图像行为识别方法耗时较长、效果不稳定的问题。为此目的,本发明的图像行为识别模型训练方法包括:获取初始识别模型,该初始识别模型包含分类头和分割头,获取初始训练模型参数和训练样本数据集,基于初始训练模型参数和训练样本数据集对初始识别模型进行训练,将训练好的初始识别模型去除分割头,得到图像行为识别模型。通过上述实施方式,能够使模型有效地关注人的整体姿态信息和人体各个不同部位的关联信息,减少模型参数量,从而减少推理耗时,提高图像行为识别的准确度和效率。

    虚拟数字人交互方法、电子设备、系统及存储介质

    公开(公告)号:CN116560512A

    公开(公告)日:2023-08-08

    申请号:CN202310629884.6

    申请日:2023-05-30

    IPC分类号: G06F3/01 G06F21/31 G06F16/332

    摘要: 本发明涉及人工智能技术领域,具体提供一种虚拟数字人交互方法、电子设备、系统及存储介质,旨在解决虚拟数字人采集多种信息之后响应速度较慢、与用户进行交互时用户体验感较差的问题。为此目的,本发明的方法包括获取多模态感知数据,其中多模态感知数据包括视觉感知数据、听觉感知数据和环境感知数据中至少两种,基于多模态感知数据获取用户权限信息,基于用户权限信息和多模态感知数据获取交互信息,基于交互信息与用户进行交互。通过上述实施方式,可以针对不同用户提供不同的交互服务,提高用户的使用体验,通过用户权限信息和多模态感知数据获取交互信息,能够提升虚拟数字人的响应速度,提升交互效果。