情報処理装置、情報処理方法及び記録媒体
    23.
    发明申请
    情報処理装置、情報処理方法及び記録媒体 审中-公开
    信息处理设备,信息处理方法和记录介质

    公开(公告)号:WO2018042791A1

    公开(公告)日:2018-03-08

    申请号:PCT/JP2017/020507

    申请日:2017-06-01

    Abstract: 【課題】分離性能を改善することが可能な音源分離技術を提供する。 【解決手段】音を観測した観測信号を取得する取得部と、想定される複数の音源の各々に対応する係数ベクトル及び入力ベクトルの行列積に非線形関数を適用することで、前記取得部により取得された前記観測信号を前記複数の音源の各々に対応する複数の分離信号に分離する音源分離部と、を備える情報処理装置。

    Abstract translation: [问题]提供能够改善分离功能的声源分离技术。 解决方案一种信息处理设备,包括:获取单元,用于获取表示观察到的声音的观察信号; 以及声源分离单元,用于将由所述获取单元获取的观测信号分离为分别对应于多个假定声源中的每一个的多个分离信号,所述分离通过将非线性函数应用于所述系数的矩阵乘法 矢量和输入矢量对应于多个声源中的每一个。

    HIERARCHICAL ATTENTION FOR SPOKEN DIALOGUE STATE TRACKING
    24.
    发明申请
    HIERARCHICAL ATTENTION FOR SPOKEN DIALOGUE STATE TRACKING 审中-公开
    对于对话状态跟踪的分级注意

    公开(公告)号:WO2017168246A1

    公开(公告)日:2017-10-05

    申请号:PCT/IB2017/000411

    申请日:2017-03-29

    Applicant: MALUUBA INC.

    Abstract: Described herein are systems and methods for providing hierarchical state tracking in a spoken dialogue system. A sequence of turns is received by a spoken dialogue system. Each turn includes a user utterance and a machine act. At each turn, a value pointer and a turn pointer are provided for that turn. The value pointer represents a probability distribution over the one or more words in the user utterance that indicates whether each word in the user utterance is a slot value for a slot. The turn pointer identifies which turn in a set of turns includes a currently-relevant slot value for the slot, where the set of turns includes a current turn for which the turn point is being provided, and all turns that precede the current turn.

    Abstract translation: 这里描述的是用于在口头对话系统中提供分级状态跟踪的系统和方法。 口头对话系统接收一系列转弯。 每一转都包括用户话语和机器动作。 在每一回合中,为该回合提供值指针和转向指针。 值指针表示对用户话语中的一个或多个单词的概率分布,其指示用户话语中的每个单词是否是时隙的时隙值。 转弯指针标识一组转弯中的哪一匝包括该槽的当前相关的槽值,其中转弯组包括转弯点正被提供的当前转弯以及当前转弯之前的所有转弯。 / p>

    VOICE ACTIVITY DETECTION
    25.
    发明申请
    VOICE ACTIVITY DETECTION 审中-公开
    语音活动检测

    公开(公告)号:WO2017052739A1

    公开(公告)日:2017-03-30

    申请号:PCT/US2016/043552

    申请日:2016-07-22

    Applicant: GOOGLE INC.

    CPC classification number: G10L25/78 G10L25/30

    Abstract: Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for detecting voice activity. In one aspect, a method include actions of receiving, by a neural network included in an automated voice activity detection system, a raw audio waveform, processing, by the neural network, the raw audio waveform to determine whether the audio waveform includes speech, and provide, by the neural network, a classification of the raw audio waveform indicating whether the raw audio waveform includes speech.

    Abstract translation: 方法,系统和装置,包括在计算机存储介质上编码的用于检测语音活动的计算机程序。 在一个方面,一种方法包括通过包括在自动语音活动检测系统中的神经网络接收原始音频波形,由神经网络处理原始音频波形以确定音频波形是否包括语音的动作,以及 通过神经网络提供表示原始音频波形是否包括语音的原始音频波形的分类。

    ORDER STATISTIC TECHNIQUES FOR NEURAL NETWORKS
    26.
    发明申请
    ORDER STATISTIC TECHNIQUES FOR NEURAL NETWORKS 审中-公开
    订购神经网络统计技术

    公开(公告)号:WO2017031172A1

    公开(公告)日:2017-02-23

    申请号:PCT/US2016/047289

    申请日:2016-08-17

    CPC classification number: G10L15/063 G06N3/08 G10L15/16 G10L25/30

    Abstract: According to some aspects, a method of classifying speech recognition results is provided, using a neural network comprising a plurality of interconnected network units, each network unit having one or more weight values, the method comprising using at least one computer, performing acts of providing a first vector as input to a first network layer comprising one or more network units of the neural network, transforming, by a first network unit of the one or more network units, the input vector to produce a plurality of values, the transformation being based at least in part on a plurality of weight values of the first network unit, sorting the plurality of values to produce a sorted plurality of values, and providing the sorted plurality of values as input to a second network layer of the neural network.

    Abstract translation: 根据一些方面,提供了一种分类语音识别结果的方法,使用包括多个互连网络单元的神经网络,每个网络单元具有一个或多个权重值,所述方法包括使用至少一个计算机,执行提供 第一矢量作为包括所述神经网络的一个或多个网络单元的第一网络层的输入,由所述一个或多个网络单元的第一网络单元将所述输入向量变换以产生多个值,所述变换基于 至少部分地基于所述第一网络单元的多个权重值,对所述多个值进行排序以产生排序的多个值,以及将所述排序的多个值作为输入提供给所述神经网络的第二网络层。

    RELEVANCE SCORE ASSIGNMENT FOR ARTIFICIAL NEURAL NETWORK
    28.
    发明申请
    RELEVANCE SCORE ASSIGNMENT FOR ARTIFICIAL NEURAL NETWORK 审中-公开
    人工神经网络的相关分数分配

    公开(公告)号:WO2016150472A1

    公开(公告)日:2016-09-29

    申请号:PCT/EP2015/056008

    申请日:2015-03-20

    Abstract: The task of relevance score assignment to a set of items onto which an artificial neural network is applied is obtained by redistributing an initial relevance score derived from the network output, onto the set of items by reversely propagating the initial relevance score through the artificial neural network so as to obtain a relevance score for each item. In particular, this reverse propagation is applicable to a broader set of artificial neural networks and/or at lower computational efforts by performing same in a manner so that for each neuron, preliminarily redistributed relevance scores of a set of downstream neighbor neurons of the respective neuron are distributed on a set of upstream neighbor neurons of the respective neuron according to a distribution function.

    Abstract translation: 通过将人造神经网络的初始相关性得分通过人工神经网络反向传播,将从网络输出得到的初始相关性得分重新分配到该组项上,获得对应用人造神经网络的一组项目的相关性分数赋值的任务。 以获得每个项目的相关性分数。 特别地,这种反向传播适用于更广泛的人造神经网络集合和/或以较低的计算努力,通过以对于每个神经元执行相同的方式,相应神经元的一组下游相邻神经元的初步再分布的相关性得分 根据分布函数分布在各个神经元的一组上游相邻神经元上。

    一种机器人系统的声音识别系统及方法

    公开(公告)号:WO2016112634A1

    公开(公告)日:2016-07-21

    申请号:PCT/CN2015/081409

    申请日:2015-06-12

    Abstract: 一种机器人系统的声音识别系统,包括:麦克风,用于接收语音指令;本地语音检测器,对语音指令进行检测并进行输出;本地语音识别模块,接收语音检测器输出的人声语音信号并选择进行甄别选择进行输出;本地语音编码模块,用于对人声语音信号进行编码后输出;远程语音解码模块,用于接收本地语音编码模块输出的编码过的语音信号进行解码后输出;远程语音识别模块和远程语言处理模块,远程语音识别模块接收远程语音解码模块输出的经解码过的人声语音信号,在进行转换后输出到远程语言处理模块,远程语言处理模块根据转换后的人声语音信号生成相应的操作指令;执行模块,用于执行远程语言处理模块的操作指令。

Patent Agency Ranking