-
公开(公告)号:WO2023060111A1
公开(公告)日:2023-04-13
申请号:PCT/US2022/077585
申请日:2022-10-05
Applicant: SNAP INC.
Inventor: BEKKER, Alan , SCHEN, Itamar , ASSA, Jackie , ITAMAR, Einav , ALGARICI, Nave
IPC: G10L15/18 , G10L15/16 , G10L15/02 , G10L15/28 , G10L15/06 , G06N3/04 , G06N3/08 , G06N3/044 , G06N3/045 , G06N3/084 , G10L15/063 , G10L15/1815
Abstract: Systems and methods are provided for performing speech to intent classification. The systems and methods perform operations comprising: receiving an audio file comprising speech input; processing, by a speech recognition engine, the audio file comprising the speech input to generate an initial character-based representation of the speech input; processing, by an intent classifier, the initial character-based representation of the speech input to generate an estimated intent of the speech input; and generating, by the speech recognition engine, a textual representation of the speech input based on the estimated intent of the speech input.
-
公开(公告)号:WO2022208451A1
公开(公告)日:2022-10-06
申请号:PCT/IB2022/053047
申请日:2022-03-31
Applicant: COMMUNAUTE WOOPEN INC. , WOOPEN FRANCE
Inventor: GRAPPIN, Edwin , VERDIER, Jérôme
IPC: G10L15/28 , G06F40/51 , G06F21/606 , G10L13/00 , G10L15/063
Abstract: Method and servers for generating a speech model for generating signals representative of utterances in a first language based on signals representative of utterances in a second language are disclosed. The method comprises transmitting a first and a second speech models to a first and a second devices of a first and a second users respectively. The first device is communicatively coupled with the second device by an encrypted communication link. A third speech model is acquired from the second device based on a local training of the second speech model on the second device. A training set comprises a first and a second decrypted signals representative of an utterance of the first user in the first language and a translated utterance of the first user in the second language respectively. The speech model is locally generated by the server by combining the second and third speech models.
-
公开(公告)号:WO2022119212A1
公开(公告)日:2022-06-09
申请号:PCT/KR2021/017243
申请日:2021-11-23
Applicant: 삼성전자 주식회사
Abstract: 전자 장치가 제공된다. 상기 전자 장치는, 음성 입력 장치, 통신 회로, 디스플레이, 상기 음성 입력 장치, 상기 통신 회로 및 상기 디스플레이에 작동적으로(operatively) 연결된 프로세서, 및 상기 프로세서에 작동적으로 연결된 메모리를 포함하고, 상기 메모리는, 실행 시에, 상기 프로세서가 상기 음성 입력 장치를 통하여 제1 사용자로부터 제1 발화를 수신하고, 상기 제1 발화에 기반하여 제1 외부 전자 장치와 통신적으로 연결되며, 상기 제1 외부 전자 장치와 통신적으로 연결된 상태를 나타내는 제1 사용자 인터페이스를 상기 디스플레이에 표시하고, 상기 제1 외부 전자 장치와 제2 외부 전자 장치가 통신적으로 연결되는 경우, 상기 전자 장치 및 상기 제2 외부 전자 장치가 상기 제1 외부 전자 장치와 동시에 연결된 상태를 나타내는 제2 사용자 인터페이스를 상기 디스플레이에 표시하도록 하는 하나 이상의 인스트럭션들을 저장할 수 있다.
-
公开(公告)号:WO2022102908A1
公开(公告)日:2022-05-19
申请号:PCT/KR2021/009654
申请日:2021-07-26
Applicant: 삼성전자주식회사
Abstract: 음성 인식 기능을 제공하는 전자 장치가 개시된다. 본 전자 장치는 다른 전자 장치와 통신을 수행하기 위한 통신 인터페이스, 전자 장치 및 다른 전자 장치의 위치 정보를 저장하는 메모리, 복수의 채널을 이용하여 소리를 감지하는 마이크 및 음성 인식 기능이 활성화되면 마이크를 통하여 수신한 사용자 발화 음성에 대한 음성 인식 동작을 수행하는 프로세서를 포함하고, 프로세서는, 트리거 음성이 마이크를 통하여 확인되면 트리거 음성의 발화 방향을 확인하고, 확인된 발화 방향에 대한 정보가 다른 전자 장치와 공유되도록 통신 인터페이스를 제어하고, 다른 전자 장치로부터 수신한 발화 방향 정보 및 확인된 발화 방향에 기초하여 발화 위치를 추정하고, 저장된 위치 정보와 추정된 발화 위치에 기초하여 전자 장치에서의 음성 인식 기능을 활성화한다.
-
公开(公告)号:WO2022059214A1
公开(公告)日:2022-03-24
申请号:PCT/JP2020/035642
申请日:2020-09-18
Applicant: 株式会社デンソーテン
Inventor: 鍜治本 晋明
Abstract: 車載装置(20)は、スピーカ(SP2)と、スピーカ(SP2)の出力音量を制御する音量制御部と、を備える。音量制御部は、他の車載装置(10)にて車両の乗員の発話による音声入力処理が実行されており、且つ、スピーカ(SP2)での出力対象とされる対象音響信号の内容が、他の車載装置(10)により車両内の他のスピーカ(SP1)での出力対象とされる他の音響信号の内容と相違するとき、そうでないときと比べてスピーカ(SP2)の出力音量を低下させる、スピーカ(SP2)の出力音量を所定音量に設定する、又は、スピーカ(SP2)を消音させる。
-
公开(公告)号:WO2022050433A1
公开(公告)日:2022-03-10
申请号:PCT/KR2020/011729
申请日:2020-09-01
Applicant: 엘지전자 주식회사
Abstract: 본 개시의 일 실시 예는 음성 인식 기동어의 인식 민감도를 조절하는 디스플레이 장치에 있어서, 디스플레이부; 마이크로폰; 음성 인식 기동어를 인식하는 기본(dafault) 기동어 인식 엔진을 저장하는 메모리; 및 상기 기본 기동어 인식 엔진의 유효 인식 문턱 값 범위를 결정하고, 미리 정해진 개수의 민감도 레벨들에 상기 유효 인식 문턱 값 범위 내의 인식 문턱 값들을 할당하고, 상기 디스플레이부를 통해 상기 민감도 레벨들을 포함하는 민감도 설정 인터페이스를 표시하고, 상기 기본 기동어 인식 엔진의 인식 문턱 값을 상기 민감도 설정 인터페이스를 통하여 선택된 인식 문턱 값으로 설정하는 프로세서를 포함하는, 디스플레이 장치를 제공한다.
-
公开(公告)号:WO2021230180A1
公开(公告)日:2021-11-18
申请号:PCT/JP2021/017640
申请日:2021-05-10
Applicant: ピクシーダストテクノロジーズ株式会社 , 大日本住友製薬株式会社
Abstract: 情報処理装置は、複数のマイクロホンで集音された音声を取得する手段を具備する。情報処理装置は、取得された音声の到来方向を推定する手段を具備する。情報処理装置は、取得された音声に対応するテキスト画像を生成する手段を具備する。情報処理装置は、推定された到来方向を参照して、テキスト画像の提示態様を決定する手段を具備する。情報処理装置は、決定された提示態様で、テキスト画像を提示する手段を具備する。
-
公开(公告)号:WO2021225901A1
公开(公告)日:2021-11-11
申请号:PCT/US2021/030274
申请日:2021-04-30
Applicant: LINGUA ROBOTICA, INC.
Inventor: COX, Austin
IPC: G10L15/18 , G10L15/183 , G10L15/26 , G10L15/28
Abstract: Described herein are a system and techniques for generating programming code from unstructured text (e.g., natural speech). To do this, upon receiving a request for programming code, the system parses unstructured text using natural language processing to identify an entity. The system then identifies a template associated with that entity. The template may also be associated with a particular programming language. Once a template has been selected, a number of parameters associated with the template are identified. The parameters are then matched to data values included in the unstructured text. Once data values have been identified for each of the parameters, the requested programming code is generated using the template and data values.
-
-
公开(公告)号:WO2021140816A1
公开(公告)日:2021-07-15
申请号:PCT/JP2020/045667
申请日:2020-12-08
Applicant: ソニーグループ株式会社
Inventor: 西川 加奈
Abstract: ユーザ発話を入力した装置以外の装置においてユーザ発話に応じた処理を実行させることを可能とした装置、方法を実現する。データ処理部は、ユーザ発話に対応した処理を外部の第2情報処理装置に実行させる場合、ユーザ発話の解析を実行してユーザ発話解釈データを生成し、生成したユーザ発話解釈データを変換して、第2情報処理装置が理解可能な変換データを生成して第2情報処理装置に送信する。ユーザ発話解釈データは、ユーザ発話の意図に相当するインテントと、ユーザ発話に含まれる要素情報に相当するスロットを有し、データ処理部はインテントとスロットを含むユーザ発話解釈データを、第2情報処理装置が理解可能なインテントとスロットを含むデータに変換する。
-
-
-
-
-
-
-
-
-