语音识别方法、装置、设备以及计算机可读存储介质

    公开(公告)号:WO2019080248A1

    公开(公告)日:2019-05-02

    申请号:PCT/CN2017/113230

    申请日:2017-11-28

    Abstract: 一种语音识别方法、装置、设备以及计算机可读存储介质,其中语音识别方法包括根据预设规则对待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列(S101);将所述帧级语音特征序列依次分为n个信息块(S102);将所有信息块并行输入预设的双向长短时递归神经网络模型中;获取每个信息块对应的前向识别结果以及后向识别结果在所述预设的双向长短时递归神经网络模型的输出层的相应的神经元结点下的输出结果,以得到所述待测语音信息的语音识别结果。该方法可以提高语音识别的效果,缩短语音解码的时延。

    IDENTIFICATION OF AUDIO COMPONENTS IN AN AUDIO MIX

    公开(公告)号:WO2019053544A1

    公开(公告)日:2019-03-21

    申请号:PCT/IB2018/056693

    申请日:2018-09-02

    Abstract: A method for audio processing includes training a computerized classifier (56, 58) to recognize respective audio outputs of a predefined set of musical instruments (30, 32, 34). Upon receiving audio data, the classifier outputs a vector (92) of respective scores (94) for the musical instruments, indicating a likelihood that each musical instrument played in the audio data. An audio segment is input to the classifier, which outputs the vector of the respective scores for the audio segment. Different, respective threshold values are set for the different musical instruments. The respective scores of the musical instruments for the audio segment are compared to the respective threshold values, and one or more of the musical instruments for which the respective scores are no less than the respective threshold values are identified as having played in the audio segment.

    전자기기
    74.
    发明申请
    전자기기 审中-公开

    公开(公告)号:WO2018199390A1

    公开(公告)日:2018-11-01

    申请号:PCT/KR2017/007125

    申请日:2017-07-05

    Inventor: 정규혁

    Abstract: 전자기기가 개시된다. 본 발명의 실시 예에 따른 전자기기는, 음원으로부터, 예령어 및 명령어를 포함하는 음성 입력을 수신하는 입력부, 하나 이상의 다른 전자기기와 통신하는 통신부, 및, 상기 전자기기에서의 상기 예령어의 인식도를 획득하고, 상기 하나 이상의 다른 전자기기 각각에서의 상기 예령어의 인식도를 수신하고, 상기 전자기기에서의 상기 예령어의 인식도 및 상기 하나 이상의 다른 전자기기 각각에서의 상기 예령어의 인식도에 기초하여 상기 전자기기가 최우선 순위이면 상기 명령어에 대응하는 기능을 수행하는 인공지능부를 포함하고, 상기 전자기기에서의 상기 예령어의 인식도는, 상기 전자기기에서의, 상기 예령어의 스코어 및 상기 음원의 위치 정보 중 적어도 하나에 기초하여 획득된다.

    전자 장치, 이의 제어 방법 및 비일시적인 컴퓨터 판독가능 기록매체

    公开(公告)号:WO2018155810A1

    公开(公告)日:2018-08-30

    申请号:PCT/KR2018/000336

    申请日:2018-01-08

    Inventor: 황인철

    CPC classification number: G10L15/16 G10L15/22 G10L15/26

    Abstract: 본 개시는 딥러닝 등의 기계 학습 알고리즘을 활용하는 인공지능(AI) 시스템 및 그 응용에 관련된 것이다. 특히, 본 개시의 전자 장치의 제어 방법은, 사용자 음성을 입력받고, 사용자 음성으로부터 텍스트 데이터를 획득하며, 획득된 텍스트 데이터로부터 목표 성분 및 파라미터 성분을 결정하고, 목표 성분 및 상기 파라미터 성분을 바탕으로 사용자 음성에 대응되는 동작을 결정하며, 결정된 동작의 수행이 불가능하다고 판단된 경우, 목표 성분 및 파라미터 성분 중 적어도 하나를 바탕으로 결정된 동작을 대체하기 위한 대체 동작을 결정하고, 대체 동작을 안내하기 위한 메시지를 제공한다.

    JOINT MANY-TASK NEURAL NETWORK MODEL FOR MULTIPLE NATURAL LANGUAGE PROCESSING (NLP) TASKS
    76.
    发明申请
    JOINT MANY-TASK NEURAL NETWORK MODEL FOR MULTIPLE NATURAL LANGUAGE PROCESSING (NLP) TASKS 审中-公开
    多任务自然语言处理(NLP)任务的多任务联合神经网络模型

    公开(公告)号:WO2018085728A1

    公开(公告)日:2018-05-11

    申请号:PCT/US2017/060056

    申请日:2017-11-03

    Abstract: The technology disclosed provides a so-called "joint many-task neural network model" to solve a variety of increasingly complex natural language processing (NLP) tasks using growing depth of layers in a single end-to-end model. The model is successively trained by considering linguistic hierarchies, directly connecting word representations to all model layers, explicitly using predictions in lower tasks, and applying a so-called "successive regularization" technique to prevent catastrophic forgetting. Three examples of lower level model layers are part-of-speech (POS) tagging layer, chunking layer, and dependency parsing layer. Two examples of higher level model layers are semantic relatedness layer and textual entailment layer. The model achieves the state-of-the-art results on chunking, dependency parsing, semantic relatedness and textual entailment.

    Abstract translation: 所公开的技术提供了所谓的“联合多任务神经网络模型” 在单个端到端模型中使用不断增长的层深度来解决各种日益复杂的自然语言处理(NLP)任务。 该模型通过考虑语言层次结构,将词语表达直接连接到所有模型层,明确地使用较低任务中的预测以及应用所谓的“连续正则化” 技术来防止灾难性遗忘。 低级别模型层的三个示例是词性(POS)标记层,分块层和依赖性分析层。 高层次模型层的两个例子是语义相关性层和文本蕴涵层。 该模型实现了关于组块,依赖性分析,语义相关性和文本蕴含的最新结果。

    音響モデル学習装置、その方法、及びプログラム
    79.
    发明申请
    音響モデル学習装置、その方法、及びプログラム 审中-公开
    声学模型学习设备,方法和程序

    公开(公告)号:WO2018062265A1

    公开(公告)日:2018-04-05

    申请号:PCT/JP2017/034942

    申请日:2017-09-27

    Abstract: 学習用の音響信号から得られる特徴量と、学習済みの、ニューラルネットワークを含む第一音響モデルとを用いて、出力層の各ユニットの出力確率の分布を含む第一出力確率分布を計算する第一出力確率分布計算部を含み、第一出力確率分布計算部は、0より大きい実数値からなる平滑化パラメータを入力とし、平滑化パラメータが大きいほど一様分布に近づくように第一出力確率分布を求めるものとし、学習用の音響信号から得られる特徴量と、第一音響モデルとを用いて、出力層の各ユニットのロジットを求め、最もロジットの値の大きい出力ユニット番号と正解ユニット番号とが異なる場合には、一致する場合よりも平滑化パラメータの値を大きくして第一出力確率分布を計算する。

    Abstract translation:

    从用于学习的声学信号获得的特征量,了解到,通过使用第一声学模型包括一个神经网络,该包括所述输出层的每个单元的输出概率的分布 包括第一输出概率分布计算单元,用于计算输出概率分布,所述第一输出概率分布计算单元输入由大于0的实数值​​的平滑参数,均匀分布作为平滑参数大于 方法,因为应寻求第一输出概率分布,从用于学习的声学信号获得的特征量,通过使用第一声学模型,确定在输出层中的每个单元的分对数,具有最大分对数的值 当输出单元数量和正确的单元数量不同时,增加平滑参数的值以计算第一输出概率分布,而不是匹配的情况。

    METHOD AND SYSTEM FOR PROVIDING ADJUNCT SENSORY INFORMATION TO A USER
    80.
    发明申请
    METHOD AND SYSTEM FOR PROVIDING ADJUNCT SENSORY INFORMATION TO A USER 审中-公开
    向用户提供附加感知信息的方法和系统

    公开(公告)号:WO2018048907A1

    公开(公告)日:2018-03-15

    申请号:PCT/US2017/050288

    申请日:2017-09-06

    Abstract: A method for providing information to a user, the method including: receiving an input signal from a sensing device associated with a sensory modality of the user; generating a preprocessed signal upon preprocessing the input signal with a set of preprocessing operations; extracting a set of features from the preprocessed signal; processing the set of features with a neural network system; mapping outputs of the neural network system to a device domain associated with a device including a distribution of haptic actuators in proximity to the user; and at the distribution of haptic actuators, cooperatively producing a haptic output representative of at least a portion of the input signal, thereby providing information to the user.

    Abstract translation: 一种用于向用户提供信息的方法,所述方法包括:从与用户的感官模态相关联的感测装置接收输入信号; 用一组预处理操作预处理输入信号时产生预处理信号; 从预处理的信号中提取一组特征; 用神经网络系统处理该组特征; 将神经网络系统的输出映射到与包括接近用户的触觉致动器分布的设备相关联的设备域; 并且在分布触觉致动器时,协作地产生表示输入信号的至少一部分的触觉输出,由此向用户提供信息。

Patent Agency Ranking