基于局部关键位置增强的数字人视频生成方法和系统

    公开(公告)号:CN118968139A

    公开(公告)日:2024-11-15

    申请号:CN202410998132.1

    申请日:2024-07-24

    摘要: 本发明公开了一种基于局部关键位置增强的数字人视频生成方法和系统,包括:获取单目视频并提取关键点序列;使用基于OPENGL的实时神经语义图像绘制方式对关键点序列进行实时绘制,得到神经语义图像序列和眼睛注视图像序列;在包含生成器和图像质量判别器的StyleUNet网络中引入用于局部特征判别真伪的局部判别器来构建多判别器联合优化的对抗学习框架,并构建正常样本和困难样本对对抗学习框架进行二阶段的对抗训练,训练结束后生成器作为视频生成模型;利用视频生成模型基于神经语义图像序列、眼睛注视图像序列、以及引入的随机噪声连续生成数字人图像,并为连续的数字人图像添加音频得到高保真、时序连续地生成数字人视频。

    基于数字人技术的贷款审核系统
    2.
    发明公开

    公开(公告)号:CN118569984A

    公开(公告)日:2024-08-30

    申请号:CN202411059860.2

    申请日:2024-08-05

    摘要: 本申请公开了一种基于数字人技术的贷款审核系统,涉及数字人技术领域,该系统包括:数字人控制中心在接收到数字人面审指令时,接收智能机器人模块反馈的文本响应文件,并基于文本响应文件进行用户面审;前端数字人中控模块在用户面审完成时,向数字人控制中心发送用户身份审核指令;数字人控制中心在接收到用户身份审核指令时,从流媒体服务模块拉取用户实时音视频流,并将用户实时音视频流发送至身份审核模块;身份审核模块基于用户实时音视频流对待审核用户进行身份审核。应用上述技术方案,解决了现有技术中的贷款面审流程的审批流程繁琐,且由于人为因素影响可能导致审批准确性和效率低的技术问题。

    语音驱动表情生成方法、装置、设备及存储介质

    公开(公告)号:CN118071901A

    公开(公告)日:2024-05-24

    申请号:CN202410280927.9

    申请日:2024-03-12

    摘要: 本发明涉及数字人脸领域,公开了一种语音驱动表情生成方法、装置、设备及存储介质,该方法通过获取音频帧序列和特定人物风格向量;对音频帧序列进行特征编码,获得上下文语音表示;将特定人物风格向量与面部运动序列进行结合,获得特定面部运动序列;对特定面部运动序列和上下文语音表示进行对齐,获得面部运动特征;通过预训练获得的离散特征空间网络对面部运动特征进行解码,获得用于表征面部表情的面部运动序列帧。由于是通过预训练获得的离散空间网络对面部运动特征进行解码,提高了合成动作的真实感,解决了跨模态的不确定性和模糊性的问题,与现有技术相比,本发明在实现准确的口型和生动的面部表情动画方面具有优势。

    一种用于小额贷款智能客服的语义匹配方法及系统

    公开(公告)号:CN115292470B

    公开(公告)日:2023-02-03

    申请号:CN202211204978.0

    申请日:2022-09-30

    摘要: 本发明提供一种用于小额贷款智能客服语义匹配的方法;包括S1:进入模型预训练阶段,对预设文档进行遮掩处理,将遮掩后的预设文档与没遮掩的预设文档输入BERT模型进行训练,得到训练后的匹配模型;本发明提供的用于小额贷款智能客服语义匹配的方法增强了BERT模型对小额贷咨询业务领域关键信息的建模能力,提升模型在语义匹配任务中的效果,相对于其他语义匹配技术,BERT模型可以学习到语义层的信息,支持数据并行处理,提高了语义匹配准确率,进一步的优化了模型,也降低了训练时间和成本。

    一种用于小额贷款智能客服的语义匹配方法及系统

    公开(公告)号:CN115292470A

    公开(公告)日:2022-11-04

    申请号:CN202211204978.0

    申请日:2022-09-30

    摘要: 本发明提供一种用于小额贷款智能客服语义匹配的方法;包括S1:进入模型预训练阶段,对预设文档进行遮掩处理,将遮掩后的预设文档与没遮掩的预设文档输入BERT模型进行训练,得到训练后的匹配模型;本发明提供的用于小额贷款智能客服语义匹配的方法增强了BERT模型对小额贷咨询业务领域关键信息的建模能力,提升模型在语义匹配任务中的效果,相对于其他语义匹配技术,BERT模型可以学习到语义层的信息,支持数据并行处理,提高了语义匹配准确率,进一步的优化了模型,也降低了训练时间和成本。

    一种图像分割方法及系统
    6.
    发明公开

    公开(公告)号:CN115170808A

    公开(公告)日:2022-10-11

    申请号:CN202211079177.6

    申请日:2022-09-05

    摘要: 本发明涉及一种图像分割方法及系统,包括如下步骤:S1:获取待处理图像,并对图像进行数据增强;S2:将增强后的图像输送至端到端模型进行模型训练,得到目标分割图像;其中,端到端模型包括编码层和解码层,所述编码层包括上卷积层和下卷积层;上卷积层用于对增强后的图像进行特征提取,得到第一特征图;下卷积层用于对上卷积层进行特征提取后的图像进行尺寸变换,得到第二特征图;将第一特征图和第二特征图进行合并并输送至解码层;解码层用于对合并后的特征图进行分割卷积,得到目标分割图像。本发明提供的图像分割方法及系统,一定程度上提高了图像分割最终的精准度,同时处理效率更高。

    一种业务推荐方法、装置、设备及存储介质

    公开(公告)号:CN117541298B

    公开(公告)日:2024-10-22

    申请号:CN202311819583.6

    申请日:2023-12-26

    摘要: 本发明公开了一种业务推荐方法、装置、设备及存储介质,涉及数据处理领域,所述方法包括:获取目标用户群体中各用户的历史业务参与信息,基于历史业务参与信息构建各用户与候选业务之间的图结构,对各用户进行兴趣分析,获得各用户的兴趣向量,对图结构中的实体向量和兴趣向量进行加权求和,获得综合向量,基于综合向量对候选业务进行推荐评分,获得各候选业务的推荐分数,基于推荐分数生成推荐列表,并基于推荐列表进行业务推荐;由于本发明通过构建用户与候选业务之间的图结构,基于各用户的兴趣向量和图结构的实体向量进行加权,从而准确地对各候选业务进行推荐评分,有效地挖掘了用户与候选业务之间的潜在关系,提升了业务推荐的准确性。

    社区检测方法、装置、设备及存储介质

    公开(公告)号:CN118445714A

    公开(公告)日:2024-08-06

    申请号:CN202410906701.5

    申请日:2024-07-08

    摘要: 本申请公开了一种社区检测方法、装置、设备及存储介质,涉及数据处理技术领域,包括:在检测到目标用户加入时,根据目标用户的用户信息将目标用户添加至目标知识网络中;从目标知识网络中提取出以目标用户为中心的异构子图;将异构子图输入至预设社区检测模型,得到预设社区检测模型输出的目标用户对应的嵌入表示;基于嵌入表示和目标知识网络确定目标用户的社区类别。相对于现有的根据目标用户的用户信息确定用户所属的社区类别的方式,本申请上述方式根据目标用户的异构子图通过预设社区检测模型确定目标用户对应的嵌入表示,进而根据嵌入表示和目标知识网络确定目标用户的社区类别,能够提高社区检测的准确性。

    数字人驱动方法、装置、设备及存储介质

    公开(公告)号:CN118037908A

    公开(公告)日:2024-05-14

    申请号:CN202410280931.5

    申请日:2024-03-12

    IPC分类号: G06T13/40 G06T13/20

    摘要: 本发明涉及人工智能技术领域,公开了一种数字人驱动方法、装置、设备及存储介质,该方法包括:根据待播报语言生成待驱动数字人对应的数字人音频和音素序列信息;基于音素序列信息和动作状态机确定待驱动数字人对应的数字人肢体语言;根据数字人肢体语言生成数字人图像序列;基于数字人音频和数字人图像序列生成数字人视频;通过待驱动数字人呈现数字人视频。由于本发明基于待驱动数字人对应的数字人音频和数字人肢体语言生成数字人视频,并通过待驱动数字人查询数字人视频,从而解决了现有技术中通过真人表演驱动方式驱动数字人需要耗费大量的人力资源,成本较高的技术问题。

    语音识别方法、装置、设备及存储介质

    公开(公告)号:CN116631379B

    公开(公告)日:2023-09-26

    申请号:CN202310889848.3

    申请日:2023-07-20

    摘要: 本发明涉及人工智能技术领域,并公开了一种语音识别方法、装置、设备及存储介质,该方法包括:采集用户原始语音,并对用户原始语音进行预处理,得到声学特征序列;将声学特征序列输入至预设语音识别模型中,以使预设语音识别模型对声学特征序列进行解码,得到文本序列,预设语音识别模型为基于CTC损失和AED损失对初始大语音模型进行训练后得到的模型;基于文本序列完成对用户原始语音的语音识别。由于本发明通过预设语音识别模型来完成语音识别,该预设语音识别模型基于CTC损失和AED损失训练、并在训练过程中选择局部损失最小的模型进行多批次平均后构建,从而在训练样本数据较少的情况下也能够准确地进行语音识别。