DATA COMPRESSION USING JOINTLY TRAINED ENCODER, DECODER, AND PRIOR NEURAL NETWORKS

    公开(公告)号:WO2019155064A1

    公开(公告)日:2019-08-15

    申请号:PCT/EP2019/053322

    申请日:2019-02-11

    Abstract: Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for training an encoder neural network, a decoder neural network, and a prior neural network, and using the trained networks for generative modeling, data compression, and data decompression. In one aspect, a method comprises: providing a given observation as input to the encoder neural network to generate parameters of an encoding probability distribution; determining an updated code for the given observation; selecting a code that is assigned to an additional observation; providing the code assigned to the additional observation as input to the prior neural network to generate parameters of a prior probability distribution; sampling latent variables from the encoding probability distribution; providing the latent variables as input to the decoder neural network to generate parameters of an observation probability distribution; and determining gradients of a loss function.

    情報処理装置、情報処理方法、及びプログラム

    公开(公告)号:WO2019106902A1

    公开(公告)日:2019-06-06

    申请号:PCT/JP2018/032466

    申请日:2018-08-31

    CPC classification number: G10L19/00

    Abstract: 【課題】音声データを受信しながら再生する際に、音声データ受信のための時間を安定して確保することが可能な情報処理装置を提供する。 【解決手段】他の装置から伝送路を介して受信した第1の音声データのうち未再生の前記第1の音声データを保持する音声バッファ部と、前記音声バッファ部に保持されている前記第1の音声データの状態又は前記伝送路の状態の少なくともいずれかに基づいて、前記第1の音声データの再生中に挿入して再生すべき第2の音声データの再生時間を計算する再生時間計算部と、前記第1の音声データにおける前記第2の音声データの挿入位置を決定する位置決定部と、前記第1の音声データにおける前記位置決定部により決定された前記挿入位置に、前記再生時間計算部により計算された前記再生時間に対応する前記第2の音声データを挿入する処理を制御する挿入部と、を備える、情報処理装置。

    与智能无线路由器配合使用的语音控制及其语音控制方法

    公开(公告)号:WO2018054206A1

    公开(公告)日:2018-03-29

    申请号:PCT/CN2017/099987

    申请日:2017-08-31

    Inventor: 陈芒

    Abstract: 一种与智能无线路由器配合使用的语音控制终端和方法,终端包括通信单元、微音器、A/D单元以及处理单元;这种语音控制终端通过微音器采集用户语音,转换后由通信单元发送到智能无线路由器进行识别;若路由器语音识别成功,驱动被控电器执行命令并让语音控制终端的第一指示单元告知用户控制命令被执行;若路由器分析失败并将语音发送到云端服务器进行分析则通知语音控制终端的第二指示单元让用户等待;若云端服务器语音分析失败则让语音控制终端第三指示单元请求用户重新采集语音信号。实施本发明,可以用较低成本实现一定范围内的语音物联,通过选择多种组网方式,实现语音对电器进行控制,提升用户体验。

    音声処理装置および方法
    4.
    发明申请
    音声処理装置および方法 审中-公开
    音频处理设备和方法

    公开(公告)号:WO2018047667A1

    公开(公告)日:2018-03-15

    申请号:PCT/JP2017/030858

    申请日:2017-08-29

    CPC classification number: G10L19/00 G10L19/008 H04R3/00 H04S7/00

    Abstract: 本技術は、少ない演算量または伝送量で臨場感の高いコンテンツ再生を行うことができるようにする音声処理装置および方法に関する。 音声処理装置は、オブジェクト音源の重要度の指標となる1または複数の重要度指標に基づいて、オブジェクト音源の音声データに対して行われる処理を選択する処理選択部を備える。本技術はコンテンツ再生システムに適用することができる。

    Abstract translation:

    本技术涉及一种音频处理设备和能够执行高内容回放与计算或传输量的少量现实的方法。 音频处理装置包括用于选择基于一个或多个严重性指数的目的声源的重要性的指标的处理的处理选择单元,将采取的音频数据的对象的声源上。 本技术可以应用于内容再现系统。

    DRONE DETECTION AND CLASSIFICATION WITH COMPENSATION FOR BACKGROUND CLUTTER SOURCES

    公开(公告)号:WO2017139001A2

    公开(公告)日:2017-08-17

    申请号:PCT/US2016/063491

    申请日:2016-11-23

    Abstract: A system, method, and apparatus for detecting drones are disclosed. An example method includes receiving a digital sound sample and partitioning the digital sound sample into segments. The method also includes applying a frequency and power spectral density transformation to each of the segments to produce respective sample vectors. For each of the sample vectors, the example method determines a combination of drone sound signatures and background sound signatures that most closely match the sample vector. The method further includes determining, for the sample vectors, if the drone sound signatures in relation to the background sound signatures that are included within the respective combinations are indicative of a drone. Conditioned on determining that the drone sound signatures are indicative of a drone, an alert message indicative of the drone is transmitted.

    METHOD AND DEVICES FOR PROCESSING INPUT SIGNALS
    6.
    发明申请
    METHOD AND DEVICES FOR PROCESSING INPUT SIGNALS 审中-公开
    用于处理输入信号的方法和设备

    公开(公告)号:WO2017129546A1

    公开(公告)日:2017-08-03

    申请号:PCT/EP2017/051392

    申请日:2017-01-24

    CPC classification number: G10L19/00 G06N7/005 G06N99/005 H04N19/94

    Abstract: An embodiment of the invention relates to a method for processing an input signal (S) and generating an output signal (Sout) based on the input signal (S), said method comprising the steps of: In an analysis stage, extracting a plurality of kernels from the input signal (S), wherein each kernel is described by a parameter vector that is defined by a given number of extracted kernel parameters, and forming the output signal (Sout) based on the extracted kernel parameters.

    Abstract translation: 本发明的一个实施例涉及一种用于处理输入信号(S)并基于输入信号(S)产生输出信号(Sout)的方法,所述方法包括以下步骤: 分析阶段,从输入信号(S)提取多个核心,其中每个核心由参数向量描述,参数向量由给定数量的提取的核心参数定义,并且基于所提取的核心参数形成输出信号(Sout) 内核参数。

    ENCODED AUDIO METADATA-BASED LOUDNESS EQUALIZATION AND DYNAMIC EQUALIZATION DURING DRC
    7.
    发明申请
    ENCODED AUDIO METADATA-BASED LOUDNESS EQUALIZATION AND DYNAMIC EQUALIZATION DURING DRC 审中-公开
    刚果民主共和国编写的音频基于元数据的LOUDNESS均衡和动态均衡

    公开(公告)号:WO2017058731A1

    公开(公告)日:2017-04-06

    申请号:PCT/US2016/053811

    申请日:2016-09-26

    Applicant: APPLE INC.

    Inventor: BAUMGARTE, Frank

    Abstract: Dynamic loudness equalization of received audio content in a playback system, using metadata that includes instantaneous loudness values for the audio content. A playback level is derived from a user volume setting of the playback system, and is compared with a mixing level that is assigned to the audio content. Parameters are computed, that define an equalization filter that is filtering the audio content before driving a speaker with the filtered audio content, based on the instantaneous loudness values and the comparing of the playback level with the assigned mixing level. Other embodiments are also described and claimed.

    Abstract translation: 使用包含音频内容的瞬时响度值的元数据,在播放系统中接收音频内容的动态响度均衡。 从播放系统的用户音量设置导出播放级别,并将其与分配给音频内容的混合级别进行比较。 计算参数,其基于瞬时响度值和重放级别与分配的混合级别的比较,定义在驱动具有滤波的音频内容的扬声器之前对音频内容进行滤波的均衡滤波器。 还描述和要求保护其他实施例。

    一种语音处理方法及装置、终端设备

    公开(公告)号:WO2016165334A1

    公开(公告)日:2016-10-20

    申请号:PCT/CN2015/095521

    申请日:2015-11-25

    Inventor: 阮卫东

    CPC classification number: G06F3/16 G09B19/06 G10L19/00

    Abstract: 一种语音处理方法及装置、终端设备,该方法包括:播放音视频;获取用户输入的语音信号,将所述用户输入的语音信号作为被测音频进行存储,并暂停播放所述音视频(S101);获取所述音视频在暂停播放时刻之前的音频数据,并将所述音频数据作为标准音频进行存储(S102);将所述被测音频与所述标准音频进行对比,得到被测音频与标准音频的相似度(S103);将所述被测音频与标准音频的相似度显示给用户(S104)。还公开了一种语音处理装置及包含此语音处理装置的终端设备。该技术方案能够及时比较用户发音和教学发音的相似度,纠正发音,提高自学效率。

    MICROPHONE UNIT COMPRISING INTEGRATED SPEECH ANALYSIS
    10.
    发明申请
    MICROPHONE UNIT COMPRISING INTEGRATED SPEECH ANALYSIS 审中-公开
    包含综合语音分析的麦克风单元

    公开(公告)号:WO2016102954A1

    公开(公告)日:2016-06-30

    申请号:PCT/GB2015/054122

    申请日:2015-12-22

    Abstract: A microphone unit has a transducer, for generating an electrical audio signal from a received acoustic signal; a speech coder, for obtaining compressed speech data from the audio signal; and a digital output, for supplying digital signals representing said compressed speech data. The speech coder may be a lossy speech coder, and may contain a bank of filters with centre frequencies that are non-uniformly spaced, for example mel frequencies.

    Abstract translation: 麦克风单元具有用于从接收的声信号产生电音频信号的换能器; 语音编码器,用于从音频信号获得压缩语音数据; 以及数字输出,用于提供表示所述压缩语音数据的数字信号。 语音编码器可以是有损的语音编码器,并且可以包含具有不均匀间隔的中心频率的一组滤波器,例如梅尔频率。

Patent Agency Ranking