-
公开(公告)号:WO2023061229A1
公开(公告)日:2023-04-20
申请号:PCT/CN2022/122332
申请日:2022-09-28
Applicant: 北京字节跳动网络技术有限公司
IPC: G06K9/62 , G06F16/583 , G10L21/10 , G06V10/774
Abstract: 本公开实施例提供一种视频生成方法、一种模型确定方法、设备、存储介质、计算机程序产品及计算机程序,该视频生成方法包括:获取目标音频;根据目标音频的特征信息和图像生成模型,生成图像序列,图像生成模型用于根据随机输入的向量生成对应的图像;对目标音频和图像序列进行结合,生成目标音频对应的目标视频。
-
公开(公告)号:WO2023058812A1
公开(公告)日:2023-04-13
申请号:PCT/KR2021/016162
申请日:2021-11-08
Applicant: 주식회사 마인즈랩
Inventor: 조면철
IPC: H04N21/43 , H04N21/466 , G10L21/10 , G06N3/08 , G06N3/04
Abstract: 본 발명의 일 실시예에 따른 제1 영상에서 제2 영상으로 영상을 전환하는 방법은, 제1 영상을 구성하는 적어도 하나의 프레임과 복수의 제2 영상 각각을 구성하는 적어도 하나의 프레임 간의 유사도를 산출하는 단계; 상기 유사도를 참조하여 상기 제1 영상의 적어도 하나의 프레임 중 상기 제1 영상에서 상기 제2 영상으로 전환되는 전환 시점에 사용하는 프레임인 제1 연결 프레임을 결정하는 단계; 및 상기 유사도를 참조하여 상기 복수의 제2 영상 중 전환에 사용할 제2 영상 및 상기 전환에 사용할 제2 영상의 적어도 하나의 프레임 중 상기 전환 시점에 사용하는 프레임인 제2 연결 프레임을 결정하는 단계;를 포함할 수 있다.
-
公开(公告)号:WO2023018405A1
公开(公告)日:2023-02-16
申请号:PCT/US2021/045195
申请日:2021-08-09
Applicant: GOOGLE LLC
Inventor: MCCARTNEY, Paul
IPC: G10L21/0356 , G10L21/10 , G10L25/57 , G06F40/284 , G10L25/30
Abstract: Systems and methods for generating candidate translations for use in creating synthetic or human- acted voice dubbings, aiding human translators in generating translations that match the corresponding video, automatically grading how well a candidate translation matches the corresponding video, suggesting modifications to the speed and/or timing of the translated text to improve the grading of a candidate translation, and suggesting modifications to the voice dubbing and/or video to improve the grading of a candidate translation. In that regard, the present technology may be used to fully automate the process of generating lip-matched translations and associated voice dubbings, or as an aid for human- in-the-loop processes that may reduce or eliminate the time and effort required from translators, adapters, voice actors, and/or audio editors to generate voice dubbings.
-
公开(公告)号:WO2023277231A1
公开(公告)日:2023-01-05
申请号:PCT/KR2021/008828
申请日:2021-07-09
Applicant: 주식회사 딥브레인에이아이
Inventor: 김두현
IPC: G10L21/10 , G10L13/02 , H04N21/43 , G06T13/205 , G06T13/80
Abstract: 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치가 개시된다. 개시되는 일 실시예에 따른 컴퓨팅 장치는, 하나 이상의 프로세서들, 및 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치로서, 영상 내 인물이 대기 상태에 있는 대기 상태 영상을 생성하고, 대기 상태 영상의 기 설정된 기준 프레임 간의 이미지 보간을 위해 대기 상태 영상에서 기 설정된 프레임 간격으로 복수 개의 백모션 이미지를 포함하는 백모션 이미지 셋을 생성하는 대기 상태 영상 생성 모듈, 발화 내용의 소스에 기반하여 영상 내 인물이 발화 상태에 있는 발화 상태 영상을 생성하는 발화 상태 영상 생성 모듈, 및 대기 상태 영상을 재생하다가 대기 상태 영상과 발화 상태 영상을 합성하여 합성 발화 영상을 생성하는 영상 재생 모듈을 포함한다.
-
公开(公告)号:WO2022255529A1
公开(公告)日:2022-12-08
申请号:PCT/KR2021/007643
申请日:2021-06-17
Applicant: 주식회사 딥브레인에이아이
Inventor: 채경수
Abstract: 머신 러닝 기반의 립싱크 영상 생성을 위한 학습 방법 및 이를 수행하기 위한 립싱크 영상 생성 장치가 개시된다. 개시되는 일 실시예에 따른 머신 러닝 기반의 립싱크 영상 생성 장치는, 인공 신경망 모델이고, 인물 배경 영상 및 발화 오디오 신호를 입력으로 하여 립싱크 영상을 생성하는 영상 합성 모델 및 인공 신경망 모델이고, 영상 합성 모델에서 생성하는 립싱크 영상과 영상 합성 모델로 입력되는 발화 오디오 신호 간의 일치 정도를 판별하는 립싱크 판별 모델을 포함한다.
-
公开(公告)号:WO2022254809A1
公开(公告)日:2022-12-08
申请号:PCT/JP2022/006350
申请日:2022-02-17
Applicant: ソニーグループ株式会社
Inventor: 小山 裕一郎 , ヘンチェル ミヒャエル , 黒田 寛 , 中村 匡伸 , 小川 浩明 , 柴田 健太郎 , 澁谷 崇 , 戸塚 典子 , 角尾 衣未留 , 上坂 俊允 , 山田 敬一
IPC: H04R3/00 , G10L21/0208 , G10L21/0272 , G10L21/0308 , G10L21/10
Abstract: 本技術の一形態に係る情報処理装置は、信号処理部を具備する。前記信号処理部は、機械学習により、マイク群により取得される複数の観測信号から各々の前記マイクに関する各々の音声信号を抽出する。これにより、所望の信号の出力を実現することが可能となる。また話者の音声を通話中の相手が聞き取りやすく、また他の話者の音声が伝わらないため、ユーザにとっての安心感、高い機密性を可能とする。
-
公开(公告)号:WO2022252890A1
公开(公告)日:2022-12-08
申请号:PCT/CN2022/089870
申请日:2022-04-28
Applicant: 上海商汤智能科技有限公司
Abstract: 公开了一种交互对象驱动和音素处理方法、装置、设备以及存储介质,所述交互对象驱动方法包括:获取交互对象的声音驱动数据的声音特征;利用声音特征提取网络对所述声音特征进行特征提取,得到所述声音驱动数据中各个语音帧的音素后验概率;所述声音特征提取网络是通过包含多语种的音素表训练得到的;根据所述各个语音帧的音素后验概率,得到所述交互对象的姿态参数值;根据所述姿态参数值控制所述交互对象的姿态。
-
公开(公告)号:WO2022124498A1
公开(公告)日:2022-06-16
申请号:PCT/KR2021/006913
申请日:2021-06-03
Applicant: 주식회사 딥브레인에이아이 DEEPBRAIN AI INC. [KR]/[KR]
Inventor: 황금별 HWANG, Guem Buel , 채경수 CHAE, Gyeong Su
Abstract: 립싱크 영상 생성 장치 및 방법이 개시된다. 개시되는 일 실시예에 따른 립싱크 영상 생성 장치는, 하나 이상의 프로세서들, 및 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 립싱크 영상 생성 장치로서, 인물 배경 영상 및 인물 배경 영상과 대응하는 발화 오디오 신호를 입력으로 하여 발화 합성 영상을 생성하고, 인물 배경 영상만을 입력으로 하여 사일런스 합성 영상을 생성하는 제1 인공 신경망 모델 및 기 설정된 발화 유지 영상 및 제1 인공 신경망 모델로부터 사일런스 합성 영상을 입력으로 하여 발화 유지 영상 및 사일런스 합성 영상에 대한 분류 값을 출력하는 제2 인공 신경망 모델을 포함한다.
-
9.
公开(公告)号:WO2022043925A1
公开(公告)日:2022-03-03
申请号:PCT/IB2021/057847
申请日:2021-08-26
Applicant: EUNOE LLC
Inventor: LEONE, Christina
Abstract: A system and method to provide self-feedback to users through XR (Extended Reality), including but not limited to VR (virtual reality), AR (augmented reality), and MR (mixed reality). The self-feedback may be provided through voice and visual imagery, for example through imagery that is connected to one or more features of the voice of the user. Non-limiting examples of voice features include tone, emphasis, pitch, inflection, quality of articulation and speed of conversation. Optionally voice comments may be analyzed for feedback. A non-limiting example of a type of imagery relates to the visualization of colors according to one or more voice features.
-
公开(公告)号:WO2021257316A1
公开(公告)日:2021-12-23
申请号:PCT/US2021/036268
申请日:2021-06-07
Applicant: NETFLIX, INC.
Inventor: WANG, Yadong , RAO, Shilpa Jois , PARTHASARATHI, Murthy
IPC: G10L21/10 , G06N20/00 , G10L15/02 , G10L15/04 , G10L15/08 , G10L15/24 , G10L2015/025 , G10L2021/105 , G10L21/0232
Abstract: The disclosed computer-implemented method may include training a machine-learning algorithm to use look-ahead to improve effectiveness of identifying visemes corresponding to audio signals by, for one or more audio segments in a set of training audio signals, evaluating an audio segment, where the audio segment includes at least a portion of a phoneme, and a subsequent segment that includes contextual audio that comes after the audio segment and potentially contains context about a viseme that maps to the phoneme. The method may also include using the trained machine-learning algorithm to identify one or more probable visemes corresponding to speech in a target audio signal. Additionally, the method may include recording, as metadata of the target audio signal, where a probable viseme occurs within the target audio signal. Various other methods, systems, and computer-readable media are also disclosed.
-
-
-
-
-
-
-
-
-