NEURAL NETWORKS FOR SPEAKER VERIFICATION
    2.
    发明申请

    公开(公告)号:WO2019027531A1

    公开(公告)日:2019-02-07

    申请号:PCT/US2018/032681

    申请日:2018-05-15

    申请人: GOOGLE LLC

    摘要: Systems, methods, devices, and other techniques for training and using a speaker verification neural network. A computing device may receive data that characterizes a first utterance. The computing device provides the data that characterizes the utterance to a speaker verification neural network. Subsequently, the computing device obtains, from the speaker verification neural network, a speaker representation that indicates speaking characteristics of a speaker of the first utterance. The computing device determines whether the first utterance is classified as an utterance of a registered user of the computing device. In response to determining that the first utterance is classified as an utterance of the registered user of the computing device, the device may perform an action for the registered user of the computing device.

    VOICE USER INTERFACE
    3.
    发明申请
    VOICE USER INTERFACE 审中-公开
    语音用户界面

    公开(公告)号:WO2017212235A1

    公开(公告)日:2017-12-14

    申请号:PCT/GB2017/051621

    申请日:2017-06-06

    IPC分类号: G10L17/22 G06F21/32 G10L15/08

    摘要: A method of speaker authentication comprises: receiving a speech signal; dividing the speech signal into segments; and, following each segment, obtaining an authentication score based on said segment and previously received segments, wherein the authentication score represents a probability that the speech signal comes from a specific registered speaker. In response to an authentication request, an authentication result is output based on the authentication score.

    摘要翻译: 说话人认证的方法包括:接收语音信号; 将语音信号分成段; 并且在每个片段之后,基于所述片段和先前接收的片段获得认证分数,其中认证分数表示语音信号来自特定注册讲话者的概率。 响应认证请求,根据认证分数输出认证结果。

    音声認識装置及び音声認識方法
    4.
    发明申请
    音声認識装置及び音声認識方法 审中-公开
    语音识别装置和语音识别方法

    公开(公告)号:WO2016013503A1

    公开(公告)日:2016-01-28

    申请号:PCT/JP2015/070490

    申请日:2015-07-17

    摘要:  従来のサーバ―クライアント型音声認識装置では、どちらか一方の音声認識結果が返ってこない場合、利用者が一から発話する必要があるため、利用者の負担が大きいという課題があった。 本発明の音声認識装置は、入力音声をサーバに送信し、送信された入力音声をサーバで音声認識した結果である第1の音声認識結果を受信し、入力音声の音声認識を行ない、第2の音声認識結果を得て、入力音声の発話要素の構成を表現する発話規則を参照し、第2の音声認識結果に合致する発話規則を判定し、第1の音声認識結果の有無及び第2の音声認識結果の有無と、発話規則を構成する発話要素の有無との対応関係により、音声認識結果が得られていない発話要素を示す音声認識状態を決定し、決定された音声認識状態に対応し、音声認識結果が得られていない発話要素を問い合わせる応答文を生成し、応答文を出力する。

    摘要翻译: 传统的服务器 - 客户端语音识别装置存在的问题在于,用户的负担很大,因为用户必须从服务器或客户端的语音识别结果开始就开始说话。 根据本发明的语音识别装置:向服务器发送输入语音; 接收第一语音识别结果,这是由已发送的输入语音的语音识别服务器的结果; 对输入语音进行语音识别,获得第二语音识别结果; 指的是表达输入语音中的语音元素的构成的话语规则,并且确定与第二语音识别结果匹配的话语规则; 基于第一语音识别结果的存在或不存在与第二语音识别结果的存在或不存在之间的相关关系,确定表示语音识别结果不能获得的话语元素的语音识别状态, 构成说话规则的话语元素的存在与否; 产生与确定的语音识别状态相对应的响应短语,并且查询未获得语音识别结果的话语元素; 并输出响应短语。

    METHOD AND APPARATUS FOR ESTABLISHING CONNECTION BETWEEN ELECTRONIC DEVICES
    5.
    发明申请
    METHOD AND APPARATUS FOR ESTABLISHING CONNECTION BETWEEN ELECTRONIC DEVICES 审中-公开
    用于建立电子设备之间连接的方法和装置

    公开(公告)号:WO2015142719A3

    公开(公告)日:2016-01-28

    申请号:PCT/US2015020710

    申请日:2015-03-16

    申请人: QUALCOMM INC

    IPC分类号: G06K9/00

    摘要: A method, performed in an electronic device, for connecting to a target device is disclosed. The method includes capturing an image including a face of a target person associated with the target device and recognizing an indication of the target person. The indication of the target person may be a pointing object, a speech command, and/or any suitable input command. The face of the target person in the image is detected based on the indication and at least one facial feature of the face in the image is extracted. Based on the at least one facial feature, the electronic device is connected to the target device.

    摘要翻译: 公开了一种在电子设备中执行的用于连接到目标设备的方法。 该方法包括捕获包括与目标设备相关联的目标人物的脸部的图像并识别目标人物的指示。 目标人员的指示可以是指向对象,语音命令和/或任何合适的输入命令。 基于指示检测图像中的目标人物的脸部,并且提取图像中的面部的至少一个面部特征。 基于至少一个面部特征,电子设备连接到目标设备。

    SYSTEMS AND METHODS FOR TEXTUAL CONTENT CREATION FROM SOURCES OF AUDIO THAT CONTAIN SPEECH
    6.
    发明申请
    SYSTEMS AND METHODS FOR TEXTUAL CONTENT CREATION FROM SOURCES OF AUDIO THAT CONTAIN SPEECH 审中-公开
    用于包含语音的音频源创建文本内容的系统和方法

    公开(公告)号:WO2015008162A2

    公开(公告)日:2015-01-22

    申请号:PCT/IB2014002304

    申请日:2014-07-14

    摘要: A system and method of creating textual content from audio streams is present. The system can include a computing device configured to receive audio streams containing speech and identify the different speakers in the speech. The system breaks apart an audio stream into separate audio streams using speaker diarization and each audio stream is sent separately to a speech-to-text transcriber. Each audio stream includes only the speech of a single speaker, which is more easily converted into text by the speech-to-text transcriber. The text streams can be assembled into a transcript of the speech portions of the audio stream. A web page of the transcript can be published. High frequency words in the transcript can be tagged in the metadata of the web page to assist search engines and increase the value of the web page.

    摘要翻译: 存在从音频流创建文本内容的系统和方法。 该系统可以包括计算设备,该计算设备被配置为接收包含语音的音频流并识别语音中的不同说话者。 该系统使用扬声器二元化将音频流分解为单独的音频流,并且将每个音频流分别发送到语音到文本转录器。 每个音频流只包含单个扬声器的语音,通过语音到文本转录器更容易将其转换为文本。 文本流可以被组合成音频流的语音部分的转录。 成绩单的网页可以发布。 可以在网页的元数据中标记抄本中的高频词以帮助搜索引擎并增加网页的价值。

    SYSTEM AND METHOD FOR SPEAKER RECOGNITION ON MOBILE DEVICES
    7.
    发明申请
    SYSTEM AND METHOD FOR SPEAKER RECOGNITION ON MOBILE DEVICES 审中-公开
    用于移动设备上的扬声器识别的系统和方法

    公开(公告)号:WO2013124455A1

    公开(公告)日:2013-08-29

    申请号:PCT/EP2013/053624

    申请日:2013-02-22

    申请人: AGNITIO, S.L.

    IPC分类号: G01L17/00 G10L17/22

    摘要: A speaker recognition system for authenticating a mobile device user includes an enrollment and learning software module, a voice biometric authentication software module, and a secure software application. Upon request by a user of the mobile device, the enrollment and learning software module displays text prompts to the user, receives speech utterances from the user, and produces a voice biometric print. The enrollment and training software module determines when a voice biometric print has met at least a quality threshold before storing it on the mobile device. The secure software application prompts a user requiring authentication to repeat an utterance based at least on an attribute of a selected voice biometric print, receives a corresponding utterance, requests the voice biometric authentication software module to verify the identity of the second user using the utterance, and, if the user is authenticated, imports the voice biometric print.

    摘要翻译: 用于认证移动设备用户的扬声器识别系统包括注册和学习软件模块,语音生物认证软件模块和安全软件应用。 在移动设备的用户请求下,注册和学习软件模块向用户显示文本提示,从用户接收语音话语,并产生语音生物识别打印。 注册和训练软件模块确定语音生物识别打印在将其存储在移动设备之前达到至少达到质量阈值的时间。 所述安全软件应用程序提示需要认证的用户至少基于所选择的语音生物测定打印的属性重复话语,接收对应的话语,使用话语请求语音生物认证软件模块来验证第二用户的身份, 并且如果用户被认证,则导入语音生物特征打印。

    一种语音审批的方法、设备和系统

    公开(公告)号:WO2013102413A1

    公开(公告)日:2013-07-11

    申请号:PCT/CN2012/087552

    申请日:2012-12-26

    IPC分类号: G06Q10/00 H04L29/08 H04M3/493

    摘要: 本发明实施例提供一种语音审批的方法,该方法包括:企业网关接收企业应用服务器发送的语音审批请求信息,该信息包括审批者终端的联系信息;企业网关根据审批者终端的联系信息,建立与该终端的语音通信连接;企业网关将与语音审批请求信息对应的审批内容音频信息,通过语音通信连接发送给审批者终端;企业网关接收审批者终端根据审批内容音频信息发送的反馈信息,并据此获取审批结果信息;企业网关将审批结果信息发送给企业应用服务器。本发明实施例同时还提供一种语音审批的设备和系统。本发明实施例通过企业应用服务器与企业网关的结合与改进,使审批者可以通过语音对申请者提出的审批请求进行审批,提高了审批工作效率。

    COMMUNICATION SYSTEM AND METHOD FOR HANDLING VOICE AND/OR VIDEO CALLS WHEN MULTIPLE AUDIO OR VIDEO TRANSDUCERS ARE AVAILABLE
    9.
    发明申请
    COMMUNICATION SYSTEM AND METHOD FOR HANDLING VOICE AND/OR VIDEO CALLS WHEN MULTIPLE AUDIO OR VIDEO TRANSDUCERS ARE AVAILABLE 审中-公开
    当多个音频或视频传输器可用时,用于处理语音和/或视频呼叫的通信系统和方法

    公开(公告)号:WO2012089831A4

    公开(公告)日:2012-09-13

    申请号:PCT/EP2011074303

    申请日:2011-12-30

    申请人: SKYPE MACDONALD DEREK

    发明人: MACDONALD DEREK

    IPC分类号: H04M1/253 H04L29/06 H04R1/22

    摘要: A method, client application and user terminal, the method comprising: providing a packet-based communication system for conducting voice or video calls over a packet-based network; and providing an instance of a client application enabling a first user terminal to access the packet-based communication system. The client application is configured so as when executed on the first terminal to receive an input from multiple different audio and/or video input transducers of the first terminal, to analyse those inputs in relation to one another, and based on that analysis to select at least one audio and/or video input transducer and/or output transducer of the first terminal for use in conducting a voice or video call with a remote user terminal via the packet-based communication system.

    摘要翻译: 一种方法,客户端应用和用户终端,所述方法包括:提供基于分组的通信系统,用于通过基于分组的网络进行语音或视频呼叫; 以及提供允许第一用户终端访问基于分组的通信系统的客户端应用的实例。 客户端应用被配置成当在第一终端上执行时接收来自第一终端的多个不同音频和/或视频输入换能器的输入,以分析彼此之间的这些输入,并且基于该分析来选择 用于经由基于分组的通信系统与远程用户终端进行语音或视频呼叫的第一终端的至少一个音频和/或视频输入换能器和/或输出换能器。

    仮想空間における会話サーバ、会話のための方法及びコンピュータ・プログラム
    10.
    发明申请
    仮想空間における会話サーバ、会話のための方法及びコンピュータ・プログラム 审中-公开
    虚拟空间中的对话服务器,对话和计算机程序的方法

    公开(公告)号:WO2009104564A1

    公开(公告)日:2009-08-27

    申请号:PCT/JP2009/052577

    申请日:2009-02-16

    IPC分类号: G06F13/00 G06T17/40

    摘要: 【課題】多数のユーザが参加しているときにも会話による円滑なコミュニケーションを仮想空間においてユーザに提供する会話サーバ、会話のための方法及びコンピュータ・プログラムを実現すること。 【解決手段】それぞれのアバターを介した複数のユーザによる会話を仮想空間において提供する会話サーバ10は、アバターの位置情報を記憶する位置記憶部13と、前記アバターのうち一のアバターの発言の重要度または注目度を示す発言強度及び発言内容を受信する発言受信部11と、前記一のアバターの前記位置情報及び他のアバターの前記位置情報より前記一のアバター及び前記他のアバター間における関心度を算出する関心度算出部15と、前記関心度及び前記発言強度より算出される値に応じて前記発言内容からメッセージを生成するメッセージ処理部16と、前記他のアバターにメッセージを送信するメッセージ送信部17と、を備える。

    摘要翻译: 该对象实现对话服务器,对话方法和计算机程序,即使在多个用户参与的情况下,也可以通过虚拟空间中的会话向用户提供平滑的通信。 用于通过虚拟空间中的每个头像进行多个用户对话的对话服务器(10)包括用于存储化身的位置信息的位置存储单元(13),用于接收话语强度的话语接收单元(11) 表示其中一个化身的发音的重要程度或注意力的说话内容,根据第一个化身的位置信息计算一个化身和其他化身之间的兴趣度的兴趣度计算单元(15) 一个其他化身的化身和位置信息之一,根据由兴趣度和话语强度计算的值从话音内容生成消息的消息处理单元(16),以及消息发送单元(17) )用于向其他化身发送消息。