AUDIO SIGNAL PROCESSING APPARATUS AND METHOD FOR DEEP NEURAL NETWORK-BASED AUDIO ENCODER AND DECODER

Invention Publication

US20240169997A1 AUDIO SIGNAL PROCESSING APPARATUS AND METHOD FOR DEEP NEURAL NETWORK-BASED AUDIO ENCODER AND DECODER 审中-公开

Please log in to see more content

Patent Title: AUDIO SIGNAL PROCESSING APPARATUS AND METHOD FOR DEEP NEURAL NETWORK-BASED AUDIO ENCODER AND DECODER
Application No.: US18505970

Application Date: 2023-11-09
Publication No.: US20240169997A1

Publication Date: 2024-05-23
Inventor: Jong Mo SUNG , Seung Kwon BEACK , Young Cheol Park , Joon BYUN , Seung Min SHIN
Applicant: ELECTRONICS AND TELECOMMUNICATIONS RESEARCH INSTITUTE , INDUSTRY-ACADEMIC COOPERATION FOUNDATION, YONSEI UNIVERSITY
Applicant Address: KR Daejeon
Assignee: ELECTRONICS AND TELECOMMUNICATIONS RESEARCH INSTITUTE,INDUSTRY-ACADEMIC COOPERATION FOUNDATION, YONSEI UNIVERSITY
Current Assignee: ELECTRONICS AND TELECOMMUNICATIONS RESEARCH INSTITUTE,INDUSTRY-ACADEMIC COOPERATION FOUNDATION, YONSEI UNIVERSITY
Current Assignee Address: KR Daejeon
Priority: KR 20220149392 2022.11.10
Main IPC: G10L19/005
IPC: G10L19/005

AUDIO SIGNAL PROCESSING APPARATUS AND METHOD FOR DEEP NEURAL NETWORK-BASED AUDIO ENCODER AND DECODER

Abstract:

An audio signal processing method, which is executed by a processor electronically communicating with a deep neural network within a computing system, may comprise: acquiring, by the processor, an input signal before encoding and an output signal after quantization and decoding; calculating, by the processor, a perceptual global loss for a frame corresponding to the input and the output signals; acquiring, by the processor, a plurality of subframes corresponding to the input and output signals by applying a windowing function to the frame of the input and output signals; calculating, by the processor, perceptual local losses for the plurality of subframes corresponding to the input and output signals; and acquiring, by the processor, multi-time scale perceptual loss based on the perceptual global and local losses.

Information query

Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L19/00	用于冗余度下降情形（例如在声码器中）的语音或音频信号分析-合成技术；语音或音频信号编码或解码，采用源滤波器模型或心理声学分析（乐器中的入G10H）
G10L19/005	.如果与编码算法相关，由传输信道引起差错的校正