驱动人脸图像说话的视频生成方法、装置、设备及介质

    公开(公告)号:CN118447138A

    公开(公告)日:2024-08-06

    申请号:CN202410565526.8

    申请日:2024-05-08

    摘要: 本发明涉及人工智能技术领域,尤其涉及一种驱动人脸图像说话的视频生成方法、装置、设备及介质。本申请中,通过将驱动音频与人脸图像进行跨模态融合,生成空间形变场,根据空间形变场,对待驱动人脸图像进行逐像素运动,得到按照时序排列的形变后的图像序列,根据形变后的图像序列,可以生成清晰度较高的视频,且生成的视频中可以保留参考人脸图像序列中的头部姿态和驱动音频对应的唇部姿态,以更自然的面部表情增强角色的感染力,从而提高了视频效果。

    一种文本自动生成方法、系统、终端及存储介质

    公开(公告)号:CN112668315B

    公开(公告)日:2024-07-19

    申请号:CN202011556071.1

    申请日:2020-12-23

    摘要: 本发明公开了一种文本自动生成方法、系统、终端及存储介质,所述方法包括:利用结构提取模型提取源文本中至少两个粒度级别的结构信息;将所述至少两个粒度级别的结构信息分别映射到嵌入式向量中,并将所有粒度级别的嵌入式向量相加,得到总的结构信息表征向量;根据所述总的结构信息表征向量控制生成与所述源文本结构一致的新文本。基于上述方案,本发明实现了不同粒度的结构信息控制生成,使得结构信息在对生成文本精确控制的同时,提高文本的生成质量。

    基于生成模型的数据标注方法、装置、设备及存储介质

    公开(公告)号:CN112860919B

    公开(公告)日:2024-07-12

    申请号:CN202110193454.5

    申请日:2021-02-20

    摘要: 本申请涉及人工智能技术领域,揭露一种基于生成模型的数据标注方法、装置、设备及存储介质,其中方法包括获取待标注文本,并对待标注文本进行拆分,分词和合并处理,得到目标短语;通过多种预设标注规则分别对目标短语进行标注,得到标签样本;再获取标签样本对目标短语的样本标注概率,并通过样本标注概率对生成模型生成的初始参数进行迭代更新,得到训练好的生成模型,并通过训练好的生成模型输出标注准确率;再根据标注准确率确定目标标签样本。本申请还涉及区块链技术,待标注文本存储于区块链中。通过多种预设规则对数据进行标注,并根据生成模型选取数据标注准确率最高的标签样本,有利于提高数据标注的准确率。

    一种数据的筛选方法、系统、设备和存储介质

    公开(公告)号:CN113780418B

    公开(公告)日:2024-06-28

    申请号:CN202111064035.8

    申请日:2021-09-10

    摘要: 本发明涉及人工智能技术领域,提供一种数据的筛选方法、系统、设备和存储介质,其方法包括:训练得到第一语言模型,计算第一语言模型的第一困惑度;根据所述第一困惑度将所述第一语言模型的第一训练集分类得到至少两个语句集合;根据所述语句集合进行分词训练得到至少两个第二语言模型;将至少两个所述第二语言模型进行组合得到第三语言模型,通过所述第三语言模型对目标语料进行筛选得到目标文本数据;方法能够减小无效训练数据量,减少了训练过程中产生的噪音;方法还提高模型识别结果的通畅性和准确率,可广泛应用于人工智能技术领域。

    文本纠错方法、装置、电子设备及存储介质

    公开(公告)号:CN112988962B

    公开(公告)日:2024-05-28

    申请号:CN202110189443.X

    申请日:2021-02-19

    摘要: 本发明涉及自然语言处理的技术领域,揭露了一种文本纠错方法,包括:分析文本中在每个字符位置上的扩展字及输出概率,得到扩展字集,判断句子中对应位置的字符是否为错别字;计算每个扩展字的替换概率,并根据替换概率筛选得到病句中每个字符对应的候选字集;将相邻字符对应的候选字集进行组合,得到字序列,当字序列标准词表中时,将字序列存储至词组集;利用词组集及候选字集,构建词网格,查询每条路径上的字词组合语句,选择最优语句,利用最优语句替换病句。本发明还涉及区块链技术,所述标准词表可存储于区块链节点中。本发明还提出了文本纠错装置、设备及计算机可读存储介质。本发明目的提供一种能够增加文本纠错结果的准确性的方法。

    单声道的语音数据的角色识别方法及装置

    公开(公告)号:CN109785846B

    公开(公告)日:2024-05-28

    申请号:CN201910012155.X

    申请日:2019-01-07

    摘要: 本发明涉及人工智能领域,公开了一种单声道的语音数据的角色识别方法及装置。方法包括:对语音数据进行语音识别,以得到语音数据的录音信息和录音时长;其中,录音时长记录录音信息的时间长度;基于通用背景模型从录音信息中提取说话人的声音特征;根据录音时长确定对所述说话人的角色判断阈值;将说话人的声音特征与预存储的目标角色的声音特征进行相似度比对,以获得相似度比对结果;根据相似度比对结果与角色判断阈值之间的关系确定语音数据中的说话人是否为所述目标角色。本技术方案解决现有技术不适用实时的说话人识别、对于时长较短的录音识别正确率较低、对于角色识别没有纠错机制的问题。

    文本风格转换方法、装置及存储介质、计算机设备

    公开(公告)号:CN109635253B

    公开(公告)日:2024-05-28

    申请号:CN201811348277.8

    申请日:2018-11-13

    IPC分类号: G06F40/16 G06N3/088

    摘要: 本发明提供一种文本风格转换方法、装置及存储介质、计算机设备,所述方法包括:根据文本的应用场景获取文本语料,生成文本语料集;从所述文本语料集中获取对齐语料,将所述对齐语料作为seq2seq模型的训练语料;所述对齐语料为表达内容相同但表示不同情感的文本语料;将所述训练语料输入所述seq2seq模型,以对所述seq2seq模型进行情感风格转换训练;根据所述应用场景获取目标文本,将所述目标文本输入已训练的seq2seq模型,得到相应情感风格的转换语料。上述方法实现文本的不同风格的转换,为文本创作、写作提供了自动化方式。

    一种交通标志识别方法、装置、设备及储存介质

    公开(公告)号:CN112016514B

    公开(公告)日:2024-05-14

    申请号:CN202010939937.0

    申请日:2020-09-09

    IPC分类号: G06V20/58 G06V10/80

    摘要: 本申请实施例公开了一种交通标志方法、装置、设备及存储介质,其中,一种交通标志识别方法包括:获取关于目标道路的至少两帧图像;对所述至少两帧图像进行交通标志检测;若检测到所述至少两帧图像中的第一图像中包括目标交通标志,则获取所述目标交通标志位于第一图像中的位置信息,作为第一位置信息;根据所述第一位置信息预测所述目标交通标志位于第二图像中的区域,作为标志区域;从所述第二图像中剪裁出所述标志区域,对所述标志区域进行标志类别识别,得到所述目标交通标志的类别。采用本申请,可以快速且精确的对交通标志进行识别。

    语音身份识别的方法、装置及计算机设备

    公开(公告)号:CN111312256B

    公开(公告)日:2024-05-10

    申请号:CN201911054125.1

    申请日:2019-10-31

    IPC分类号: G10L17/02 G10L15/04 G10L25/30

    摘要: 本申请公开了一种语音身份识别的方法、装置及计算机设备,涉及计算机技术领域,可以解决对多个说话者的语音识别能力差,无法获取到相关说话人身份信息的问题。其中方法包括:基于待识别语音数据的谐波能量将所述待识别语音数据切割成多个待识别语音片段;将各个所述待识别语音片段输入训练好的神经网络模型中,提取对应的语音特征向量;根据所述语音特征向量对各个所述待识别语音片段进行类别划分,以便获取得到所述待识别语音数据中包含的各个语音身份以及所述语音身份对应的语音文本信息。本申请适用于对语音身份的识别。

    一种基于变分自编码器的问题分类方法和装置

    公开(公告)号:CN109829478B

    公开(公告)日:2024-05-07

    申请号:CN201811640735.5

    申请日:2018-12-29

    摘要: 本发明实施例提供了一种基于变分自编码器的问题分类方法和装置,本发明涉及人工智能领域,该方法包括:获取分类模型输出的多个问题以及每个问题的类别,并从多个问题中确定目标问题;将多个问题输入到变分自编码器,确定多个问题的句向量;确定每个类别的类向量;计算每个类别的类向量与目标句向量之间的相似度,目标句向量为目标问题的句向量;判断与目标句向量之间的相似度最高的类别是否为目标类别;如果与目标句向量之间的相似度最高的类别不是目标类别,则确定目标问题被分类模型分在错误的类别中;输出提示对目标问题重新分类的信息。因此,本发明实施例提供的技术方案能够解决现有技术中无法辨别和纠正问题分类错误的问题。