专利检索 ap:("清华珠三角研究院" OR "赛业(广州)生物科技有限公司") AND inv:"叶俊杰" 第 1 页

1.

发明授权
一种唇形同步的视频生成方法、装置、设备及存储介质有权

公开(公告)号：CN112562720B

公开(公告)日：2024-07-12

申请号：CN202011372011.4

申请日：2020-11-30

申请人： 清华珠三角研究院 , 赛业(广州)生物科技有限公司

发明人： 李权 , 王伦基 , 叶俊杰 , 成秋喜 , 胡玉针 , 李嘉雄 , 朱杰 , 刘华清 , 韩蓝青

IPC分类号： G10L21/10 , G10L21/14 , G10L21/18 , G10L25/57 , G06V40/16

摘要： 本发明公开了一种唇形同步的视频生成方法、装置、设备及存储介质，方法包括：获取了原始视频数据后，对所述原始视频数据中的语音数据进行人物标注，得到第一数据，并对标注好的原始视频数据进行人脸检测，得到第二数据，然后根据所述第一数据和所述第二数据，训练得到生成网络、唇形同步判别网络和图像质量判别网络，并根据所述生成网络、唇形同步判别网络和图像质量判别网络构建人物唇形生成模型，最后通过所述人物唇形生成模型对输入的序列图片进行处理，生成唇形同步的图像数据。本发明能够准确生成视频中人物讲话时的唇形图像，可广泛应用于视频数据处理技术领域。

2.

发明授权
合成语音与原始视频匹配方法、系统、装置及存储介质有权

公开(公告)号：CN112562719B

公开(公告)日：2024-03-19

申请号：CN202011373933.7

申请日：2020-11-30

申请人： 清华珠三角研究院 , 赛业(广州)生物科技有限公司

发明人： 李嘉雄 , 王伦基 , 叶俊杰 , 李权 , 成秋喜 , 胡玉针 , 朱杰 , 黄桂芳 , 韩蓝青

IPC分类号： G10L21/043 , G10L25/57 , H04N21/44 , H04N21/4402 , H04N21/439 , H04N5/262

摘要： 本发明公开了一种合成语音与原始视频匹配方法、系统、装置及存储介质，其中所述方法包括：获取原始视频的第一长度；获取合成语音的第二长度；根据所述第一长度与所述第二长度的长度差异，对所述原始视频和/或所述合成语音进行变速处理。本申请使得变速处理后的视频与语音的长度一致，提高用户的观感体验。本申请可广泛应用于视频处理领域。

3.

发明授权
一种将语音转换成唇形的方法、系统、装置和存储介质有权

公开(公告)号：CN111370020B

公开(公告)日：2023-02-14

申请号：CN202010079894.3

申请日：2020-02-04

申请人： 清华珠三角研究院 , 赛业(广州)生物科技有限公司

发明人： 黄桂芳 , 王伦基 , 叶俊杰 , 李权 , 任勇 , 韩蓝青

IPC分类号： G10L21/10 , G10L25/24 , G10L25/30 , G10L19/02 , G10L19/26 , G06V40/20 , G06V10/77 , G06T13/20 , G06T13/40

摘要： 本发明公开了一种将语音转换成唇形的方法、系统、装置和存储介质，所述方法包括：获取语音序列；利用训练好的生成对抗网络模型接收所述语音序列并进行处理；获取所述训练好的生成对抗网络模型输出的唇形图像。本发明通过训练生成对抗网络模型（GAN），并利用训练好的生成对抗网络模型将语音转换唇形，能够得到高质量、高分辨率的唇形图像；生成对抗网络模型采用的是一种无监督的学习方式训练，能够明显改善语音质量，减少语音失真，增强系统的鲁棒性；当持续输入变化的语音时，最终能够输出动态的唇形图像，能够提供流畅的视觉效果；同时，将生成的唇形图像与语音结合，能够合成高质量的人脸说话视频。本发明广泛应用于语音数据技术领域。

4.

发明授权
语音及动作驱动图像的方法、系统、装置及存储介质有权

公开(公告)号：CN113179449B

公开(公告)日：2022-04-12

申请号：CN202110436618.2

申请日：2021-04-22

申请人： 清华珠三角研究院 , 赛业(广州)生物科技有限公司

发明人： 王伦基 , 李权 , 叶俊杰 , 朱杰 , 成秋喜 , 韩蓝青

IPC分类号： H04N21/439 , H04N21/44 , H04N21/4402 , H04N21/4415 , H04N21/81 , H04N5/262

摘要： 本发明公开了一种语音及动作驱动图像的方法、系统、装置及存储介质，所述方法包括：获取语音、动作视频及图像；根据所述图像提取面部特征向量，以及根据所述语音预测系列表情参数；根据所述图像及所述动作视频确定驱动的系列关键点参数；根据所述面部特征向量、所述驱动的系列关键点参数及所述系列表情参数对应生成系列图像；根据所述语音及所述系列图像生成视频文件。本发明实施例能够驱动静态图像按照预设的语音及动作形成匹配的视频文件，生动逼真，操作简单且便于推广。本发明实施例可广泛应用于图像处理技术领域。

5.

发明公开
将虚拟人物用于视频自动生产的方法、系统和存储介质无效

公开(公告)号：CN113259778A

公开(公告)日：2021-08-13

申请号：CN202110434256.3

申请日：2021-04-22

申请人： 清华珠三角研究院 , 赛业(广州)生物科技有限公司

发明人： 李权 , 王伦基 , 叶俊杰 , 朱杰 , 成秋喜 , 韩蓝青

IPC分类号： H04N21/81 , H04N21/43

摘要： 本发明公开了一种将虚拟人物用于视频自动生产的方法、系统和存储介质。方法包括使用神经网络合成发音声音属性和讲解文稿，获得语音信息，生成虚拟人物，根据图像信息生成视频信息，将虚拟人物嵌入到视频信息中等步骤。嵌入了虚拟人物的视频信息被播放出来时，会同时显示出视频信息中所包含的图像信息，以及模拟真人朗读讲解文稿动作和播放出同步语音信息的虚拟人物，其显示效果是虚拟人物对作为背景的图像信息进行介绍，具有真人的唇形和语音匹配、表情丰富等特点，解决了现有技术中视频录制设备要求的限制、采用拼接的方案合成语音的不足以及无真人、虚拟动漫角色讲解的短板，可大幅度提高视频自动创作的效率。本发明广泛应用于多媒体技术领域。

6.

发明公开
一种视频分割方法、系统、设备及存储介质有权

公开(公告)号：CN112565885A

公开(公告)日：2021-03-26

申请号：CN202011374280.4

申请日：2020-11-30

申请人： 清华珠三角研究院 , 赛业(广州)生物科技有限公司

发明人： 胡玉针 , 叶俊杰 , 李权 , 王伦基 , 李嘉雄 , 朱杰 , 成秋喜 , 黄桂芳 , 韩蓝青

IPC分类号： H04N21/44 , H04N21/439 , H04N21/234 , H04N21/233 , G10L25/57 , G10L15/04 , G10L15/02 , G10L15/26 , G10L15/16 , G10L17/00 , G10L17/04 , G10L17/18 , G10L25/30 , G06K9/00 , G10L21/0208

摘要： 本发明公开了一种视频分割方法、系统、设备及存储介质，方法包括从第一视频中提取第一音频并去噪得到第二音频；分析第二音频获得第三音频和第一时间节点信息，并得到第一视频片段；对第三音频进行人声识别，得到第二视频片段；对第二视频片段进行人脸检测；对含人脸视频片段进行唇形同步检测；对唇形同步视频片段进行语音增强，进一步对已有视频片段进行语音识别，得到语音识别结果。本发明通过对视频采用诸如去噪、神经网络分析、人声识别、人脸检测、唇形同步检测、语音增强结果等处理手段，能够自动化实现对视频的高精度切割。本发明可以广泛应用于视频处理技术领域。

7.

发明公开
合成语音与原始视频匹配方法、系统、装置及存储介质审中-实审

公开(公告)号：CN112562719A

公开(公告)日：2021-03-26

申请号：CN202011373933.7

申请日：2020-11-30

申请人： 清华珠三角研究院 , 赛业(广州)生物科技有限公司

发明人： 李嘉雄 , 王伦基 , 叶俊杰 , 李权 , 成秋喜 , 胡玉针 , 朱杰 , 黄桂芳 , 韩蓝青

IPC分类号： G10L21/043 , G10L25/57 , H04N21/44 , H04N21/4402 , H04N21/439 , H04N5/262

摘要： 本发明公开了一种合成语音与原始视频匹配方法、系统、装置及存储介质，其中所述方法包括：获取原始视频的第一长度；获取合成语音的第二长度；根据所述第一长度与所述第二长度的长度差异，对所述原始视频和/或所述合成语音进行变速处理。本申请使得变速处理后的视频与语音的长度一致，提高用户的观感体验。本申请可广泛应用于视频处理领域。

8.

发明公开
一种将语音转换成唇形的方法、系统、装置和存储介质有权

公开(公告)号：CN111370020A

公开(公告)日：2020-07-03

申请号：CN202010079894.3

申请日：2020-02-04

申请人： 清华珠三角研究院 , 赛业(广州)生物科技有限公司

发明人： 黄桂芳 , 王伦基 , 叶俊杰 , 李权 , 任勇 , 韩蓝青

IPC分类号： G10L21/10 , G10L25/24 , G10L25/30 , G10L19/02 , G10L19/26 , G06K9/62 , G06K9/00 , G06T13/20 , G06T13/40

摘要： 本发明公开了一种将语音转换成唇形的方法、系统、装置和存储介质，所述方法包括：获取语音序列；利用训练好的生成对抗网络模型接收所述语音序列并进行处理；获取所述训练好的生成对抗网络模型输出的唇形图像。本发明通过训练生成对抗网络模型(GAN)，并利用训练好的生成对抗网络模型将语音转换唇形，能够得到高质量、高分别率的唇形图像；生成对抗网络模型采用的是一种无监督的学习方式训练，能够明显改善语音质量，减少语音失真，增强系统的鲁棒性；当持续输入变化的语音时，最终能够输出动态的唇形图像，能够提供流畅的视觉效果；同时，将生成的唇形图像与语音结合，能够合成高质量的人脸说话视频。本发明广泛应用于语音数据技术领域。

9.

发明公开
一种人物场景视频生成方法、系统、装置及存储介质无效

公开(公告)号：CN111353069A

公开(公告)日：2020-06-30

申请号：CN202010079892.4

申请日：2020-02-04

申请人： 清华珠三角研究院 , 赛业(广州)生物科技有限公司

发明人： 李权 , 叶俊杰 , 王伦基 , 黄桂芳 , 任勇 , 韩蓝青

IPC分类号： G06F16/738 , G06N3/04 , G06N3/08 , G06F16/783

摘要： 本发明公开了一种人物场景视频生成方法、系统、装置及存储介质，通过训练好生成对抗网络模型，并将带有限制条件的标签图像输入训练好的生成对抗网络模型中，从而可输出与限制条件对应的真人图片，限制条件可指导生成对抗网络模型生成与限制条件对应的真实图像，从而可对生成内容进行更加精细的内容控制，生成更加可控的高清图像。并且可根据后续使用中产生的新生成需求，增加新的限制条件，使生成内容根据需求扩展变得更加丰富；而且无需每段视频都必须有真实人物进行录制，具有更快的制作效率与更加丰富的扩展形式。本发明广泛应用于计算机技术领域。

10.

发明公开
一种将文本转换成语音的方法、系统、装置和存储介质有权

公开(公告)号：CN111145720A

公开(公告)日：2020-05-12

申请号：CN202010079855.3

申请日：2020-02-04

申请人： 清华珠三角研究院 , 赛业(广州)生物科技有限公司

发明人： 叶俊杰 , 李权 , 王伦基 , 黄桂芳 , 任勇 , 韩蓝青

IPC分类号： G10L13/02 , G10L13/033 , G10L25/24 , G10L25/03 , G10L25/30 , G10L25/60

摘要： 本发明公开了一种将文本转换成语音的方法、系统、装置和存储介质，所述方法包括获取测试文本和待迁移语音，获取所述测试文本的发音编码，使用经过训练的语音风格编码器，获取所述待迁移语音的风格编码，将所述发音编码和风格编码进行拼接，以及使用语音解码器对所述拼接的结果进行解码从而获得语音等步骤。通过使用语音风格编码器，可以提取待迁移语音的风格，然后将其融入到测试文本的发音中，使得最终获得的语音具有与测试文本相同的内容，以及与待迁移语音相同的风格，实现从文本到具有一定风格的语音的转换。并且，本发明可以较低成本取得训练集，用于对所述语音风格编码器进行训练，从而降低使用成本。本发明广泛应用于语音数据技术领域。

搜索结果

国家/区域

专利有效性

申请日

公布(公告)日

申请人

申请人所在国/区域

发明人

IPC

IPC部

IPC大类

IPC小类

IPC大组

IPC小组

外观分类