视频生成方法及设备
    1.
    发明申请

    公开(公告)号:WO2023061229A1

    公开(公告)日:2023-04-20

    申请号:PCT/CN2022/122332

    申请日:2022-09-28

    Inventor: 刘玮 何茜

    Abstract: 本公开实施例提供一种视频生成方法、一种模型确定方法、设备、存储介质、计算机程序产品及计算机程序,该视频生成方法包括:获取目标音频;根据目标音频的特征信息和图像生成模型,生成图像序列,图像生成模型用于根据随机输入的向量生成对应的图像;对目标音频和图像序列进行结合,生成目标音频对应的目标视频。

    영상 전환 방법, 장치 및 컴퓨터 프로그램

    公开(公告)号:WO2023058812A1

    公开(公告)日:2023-04-13

    申请号:PCT/KR2021/016162

    申请日:2021-11-08

    Inventor: 조면철

    Abstract: 본 발명의 일 실시예에 따른 제1 영상에서 제2 영상으로 영상을 전환하는 방법은, 제1 영상을 구성하는 적어도 하나의 프레임과 복수의 제2 영상 각각을 구성하는 적어도 하나의 프레임 간의 유사도를 산출하는 단계; 상기 유사도를 참조하여 상기 제1 영상의 적어도 하나의 프레임 중 상기 제1 영상에서 상기 제2 영상으로 전환되는 전환 시점에 사용하는 프레임인 제1 연결 프레임을 결정하는 단계; 및 상기 유사도를 참조하여 상기 복수의 제2 영상 중 전환에 사용할 제2 영상 및 상기 전환에 사용할 제2 영상의 적어도 하나의 프레임 중 상기 전환 시점에 사용하는 프레임인 제2 연결 프레임을 결정하는 단계;를 포함할 수 있다.

    SYSTEMS AND METHODS FOR ASSISTED TRANSLATION AND LIP MATCHING FOR VOICE DUBBING

    公开(公告)号:WO2023018405A1

    公开(公告)日:2023-02-16

    申请号:PCT/US2021/045195

    申请日:2021-08-09

    Applicant: GOOGLE LLC

    Inventor: MCCARTNEY, Paul

    Abstract: Systems and methods for generating candidate translations for use in creating synthetic or human- acted voice dubbings, aiding human translators in generating translations that match the corresponding video, automatically grading how well a candidate translation matches the corresponding video, suggesting modifications to the speed and/or timing of the translated text to improve the grading of a candidate translation, and suggesting modifications to the voice dubbing and/or video to improve the grading of a candidate translation. In that regard, the present technology may be used to fully automate the process of generating lip-matched translations and associated voice dubbings, or as an aid for human- in-the-loop processes that may reduce or eliminate the time and effort required from translators, adapters, voice actors, and/or audio editors to generate voice dubbings.

    발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치

    公开(公告)号:WO2023277231A1

    公开(公告)日:2023-01-05

    申请号:PCT/KR2021/008828

    申请日:2021-07-09

    Inventor: 김두현

    Abstract: 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치가 개시된다. 개시되는 일 실시예에 따른 컴퓨팅 장치는, 하나 이상의 프로세서들, 및 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치로서, 영상 내 인물이 대기 상태에 있는 대기 상태 영상을 생성하고, 대기 상태 영상의 기 설정된 기준 프레임 간의 이미지 보간을 위해 대기 상태 영상에서 기 설정된 프레임 간격으로 복수 개의 백모션 이미지를 포함하는 백모션 이미지 셋을 생성하는 대기 상태 영상 생성 모듈, 발화 내용의 소스에 기반하여 영상 내 인물이 발화 상태에 있는 발화 상태 영상을 생성하는 발화 상태 영상 생성 모듈, 및 대기 상태 영상을 재생하다가 대기 상태 영상과 발화 상태 영상을 합성하여 합성 발화 영상을 생성하는 영상 재생 모듈을 포함한다.

    립싱크 영상 생성 장치 및 방법
    8.
    发明申请

    公开(公告)号:WO2022124498A1

    公开(公告)日:2022-06-16

    申请号:PCT/KR2021/006913

    申请日:2021-06-03

    Abstract: 립싱크 영상 생성 장치 및 방법이 개시된다. 개시되는 일 실시예에 따른 립싱크 영상 생성 장치는, 하나 이상의 프로세서들, 및 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 립싱크 영상 생성 장치로서, 인물 배경 영상 및 인물 배경 영상과 대응하는 발화 오디오 신호를 입력으로 하여 발화 합성 영상을 생성하고, 인물 배경 영상만을 입력으로 하여 사일런스 합성 영상을 생성하는 제1 인공 신경망 모델 및 기 설정된 발화 유지 영상 및 제1 인공 신경망 모델로부터 사일런스 합성 영상을 입력으로 하여 발화 유지 영상 및 사일런스 합성 영상에 대한 분류 값을 출력하는 제2 인공 신경망 모델을 포함한다.

    A SYSTEM, MODULAR PLATFORM AND METHOD FOR XR BASED SELF-FEEDBACK, DIALOGUE, AND PUBLISHING

    公开(公告)号:WO2022043925A1

    公开(公告)日:2022-03-03

    申请号:PCT/IB2021/057847

    申请日:2021-08-26

    Applicant: EUNOE LLC

    Inventor: LEONE, Christina

    Abstract: A system and method to provide self-feedback to users through XR (Extended Reality), including but not limited to VR (virtual reality), AR (augmented reality), and MR (mixed reality). The self-feedback may be provided through voice and visual imagery, for example through imagery that is connected to one or more features of the voice of the user. Non-limiting examples of voice features include tone, emphasis, pitch, inflection, quality of articulation and speed of conversation. Optionally voice comments may be analyzed for feedback. A non-limiting example of a type of imagery relates to the visualization of colors according to one or more voice features.

    SYSTEMS AND METHODS FOR PHONEME AND VISEME RECOGNITION

    公开(公告)号:WO2021257316A1

    公开(公告)日:2021-12-23

    申请号:PCT/US2021/036268

    申请日:2021-06-07

    Applicant: NETFLIX, INC.

    Abstract: The disclosed computer-implemented method may include training a machine-learning algorithm to use look-ahead to improve effectiveness of identifying visemes corresponding to audio signals by, for one or more audio segments in a set of training audio signals, evaluating an audio segment, where the audio segment includes at least a portion of a phoneme, and a subsequent segment that includes contextual audio that comes after the audio segment and potentially contains context about a viseme that maps to the phoneme. The method may also include using the trained machine-learning algorithm to identify one or more probable visemes corresponding to speech in a target audio signal. Additionally, the method may include recording, as metadata of the target audio signal, where a probable viseme occurs within the target audio signal. Various other methods, systems, and computer-readable media are also disclosed.

Patent Agency Ranking