一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置

    公开(公告)号:CN117576608A

    公开(公告)日:2024-02-20

    申请号:CN202311535537.3

    申请日:2023-11-16

    Abstract: 本发明提出了一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置,该方法及装置包括:通过图像信息获得单元获得待输入的当前图像信息;通过音频信息获得单元获得待输入的当前语音信息;通过交互信息获取单元获得交互者输入的语音或文本信息;通过程序存储器存储基于语音驱动的可控相似关键帧虚拟人脸视频生成及交互程序,所述程序在被生成处理器或交互处理器读取时执行;通过生成处理器处理图像、音频信息输出虚拟人脸视频;通过交互处理器处理视频、交互信息完成虚拟人交互过程;通过交互界面协助交互者进行交互。通过该方法和装置,可将任意角色克隆为形象及语音特点一致的虚拟人,并且具有一定的交互能力,且该方法简化了虚拟人面部视频的生成过程,增强了虚拟人的真实性和交互能力。

    一种基于多注意力融合机制提高对话一致性和主题相关性的多轮对话生成方法

    公开(公告)号:CN117520506A

    公开(公告)日:2024-02-06

    申请号:CN202311535516.1

    申请日:2023-11-16

    Abstract: 本发明公开了一种基于多注意力融合机制提高对话一致性和主题相关性的多轮对话生成方法,涉及自然语言处理技术领域。其特征在于,利用BTM主题模型对主题关键词进行提取,使用Seq2Seq编码解码框架对历史信息和当前消息分别进行编码,并对当前消息计算其与历史信息的相关性。对主题信息,当前消息以及历史信息进行注意力计算,通过融合注意力机制在解码过程中能够在多轮对话中同时关注到当前消息,历史信息以及主题信息,使生成的对话具备更好的上下文一致性和主题相关性,使得回答内容更加准确,丰富。

Patent Agency Ranking