-
公开(公告)号:WO2023080574A1
公开(公告)日:2023-05-11
申请号:PCT/KR2022/016806
申请日:2022-10-31
Applicant: 삼성전자 주식회사
Inventor: 전현주
Abstract: 입력 모듈, 프로세서, 및 인스트럭션들을 저장하는 메모리를 포함하고, 상기 인스트럭션들은, 상기 프로세서에 의해 실행 시, 상기 전자 장치가, 상기 입력 모듈을 통해 자연어 입력을 획득하고, 상기 자연어 입력에 따른 적어도 하나의 명령과 관련된 적어도 하나의 외부 전자 장치를 식별하고, 상기 적어도 하나의 외부 전자 장치 중 지정된 외부 전자 장치를 식별하고, 상기 적어도 하나의 외부 전자 장치 중 상기 지정된 외부 전자 장치와 관련된 적어도 하나의 제1 외부 전자 장치를 식별하고, 상기 적어도 하나의 명령에 의해 상기 지정된 외부 전자 장치와 상기 적어도 하나의 제1 외부 전자 장치 각각에서 수행되는 적어도 하나의 동작을 식별하고, 상기 적어도 하나의 동작을 실행하기 위한 규칙을 생성하도록 구성되는, 전자 장치가 개시된다. 이 외에도 명세서를 통해 파악되는 다양한 실시 예가 가능하다.
-
2.
公开(公告)号:WO2023066682A1
公开(公告)日:2023-04-27
申请号:PCT/EP2022/077905
申请日:2022-10-07
Applicant: MERCEDES-BENZ GROUP AG
Inventor: LEDER, Markus , LAMBERTH-COCCA, Sabrina
Abstract: Es wird ein Verfahren zur Erkennung von mehrteiligen Schlüsselwörtern zur Aktivierung eines Sprachbediensystems offenbart. Das Sprachbedienungssystem ist eingerichtet zum Empfang einer Lautzeichenfolge. Erfindungsgemäß werden folgende Schritte vorgeschlagen: Überprüfung der Lautzeichenfolge auf das Vorhandensein eines ersten Teils des Schlüsselwortes und nur sofern der erste Teil erkannt wird, Überprüfung der Lautzeichenfolge auf das Vorhandensein eines zweiten Teils des Schlüsselwortes (19) und nur sofern der zweite Teil erkannt wird, Aktivierung des Sprachbedienungssystem (21) zur Ausführung einer Aktion.
-
公开(公告)号:WO2023017975A1
公开(公告)日:2023-02-16
申请号:PCT/KR2022/007541
申请日:2022-05-27
Applicant: 삼성전자주식회사
Abstract: 인공지능 서버는 발화 의도를 파악하기 위해 발화 당시 전자 장치의 상태에 대한 여러 정보를 발화와 연계하여 분석할 수 있다. 일 실시예에 따른 전자 장치의 동작 방법에 있어서, 사용자 음성 명령을 수신하고, 사용자 음성 명령 수신에 대응하여 전자 장치의 상태에 대한 제1 컨텍스트(context) 정보를 수집하는 동작; 제1 컨텍스트 정보 및 사용자 음성 명령을 지능형 서버로 전송하는 동작; 지능형 서버로부터 제1 컨텍스트 정보 및 사용자 음성 명령에 기초하여 생성된 적어도 하나의 처리 결과를 포함하는 처리 결과 세트(set)를 수신하는 동작; 처리 결과 세트 수신에 대응하여 전자 장치의 상태에 대한 제2 컨텍스트 정보를 수집하는 동작; 제2 컨텍스트 정보 및 처리 결과 세트에 기초하여 타겟 처리 결과를 생성하는 동작; 및 타겟 처리 결과를 출력하는 동작을 포함할 수 있다. 그 외에도 다양한 실시예들이 가능할 수 있다.
-
公开(公告)号:WO2023008714A1
公开(公告)日:2023-02-02
申请号:PCT/KR2022/007534
申请日:2022-05-27
Applicant: 삼성전자주식회사
Inventor: 김현정
Abstract: 다양한 실시예에 따른 전자 장치는 프로세서; 및 인스트럭션들을 포함하는 메모리를 포함하고, 상기 프로세서에 의해 상기 인스트럭션들이 실행될 때, 상기 인스트럭션들은 상기 프로세서가, 상기 전자 장치에 무선으로 연결 가능한 무선 오디오 장치의 정보를 획득하고, 상기 무선 오디오 장치의 정보의 획득에 응답하여 사용자의 발화가 원격 제어의 대상이 되는 타겟 장치에 대한 장치 제어 발화를 포함하는지 판단하고, 상기 사용자의 발화가 상기 장치 제어 발화를 포함한다고 판단한 것에 응답하여 상기 사용자의 발화의 인텐트에 따른 상기 타겟 장치로 상기 무선 오디오 장치의 연결 전환을 제안할 수 있다. 그 외에도 다양한 실시예들이 가능할 수 있다.
-
5.
公开(公告)号:WO2022271746A1
公开(公告)日:2022-12-29
申请号:PCT/US2022/034407
申请日:2022-06-21
Applicant: NUANCE COMMUNICATIONS, INC.
Inventor: WENINGER, Felix , GAUDESI, Marco , LEIBOLD, Ralf , ZHAN, Puming
IPC: G10L15/34 , G10L15/26 , G10L15/20 , G10L15/22 , G10L15/04 , G10L19/02 , G10L21/0208 , G10L25/24
Abstract: An end-to-end automatic speech recognition (ASR) system includes: first encoder configured for close-talk input captured by a close-talk input mechanism; second encoder configured for far-talk input captured by far-talk input mechanism; and encoder selection layer configured to select at least one of first and second encoders for use in producing ASR output. The selection is made based on at least one of short-time Fourier transform (STFT), Mel-frequency Cepstral Coefficient (MFCC) and filter bank derived from at least one of the close-talk input and far-talk input. If signals from both the close-talk input mechanism and far-talk input mechanism are present for a speech segment, the encoder selection layer dynamically selects between the close-talk encoder and far-talk encoder to select the encoder that better recognizes the speech segment. An encoder-decoder model is used to produce ASR output.
-
公开(公告)号:WO2022249450A1
公开(公告)日:2022-12-01
申请号:PCT/JP2021/020432
申请日:2021-05-28
Applicant: 日本電信電話株式会社
Abstract: 学習時に観測信号と登録済み音声信号のペアデータを使わず、観測信号のみを用いて、モデルを学習する学習方法等を提供する。学習方法は、学習用の観測信号に基づく音響特徴量系列^Xdを周波数マスクでマスキングすることによりデータ拡張し、拡張後の音響特徴量系列∨Xdを得、話者モデルにより音響特徴量系列∨Xdから話者ベクトルetarget,dを取得し、話者ベクトルetarget,dの一部にドロップアウトによるマスキングを行いデータ拡張し、拡張後の話者ベクトル∨etarget,dを得、学習用の観測信号に基づく音響特徴量系列に含まれる音響特徴量が話者ベクトル∨etarget,dに対応する話者の音声区間及び非音声区間を表す事後確率を推定し、事後確率と音響特徴量系列^Xdに対応する教師ラベル^Ydとを用いて、事後確率推定の誤差を計算し、誤差に基づいてパラメータを更新する。
-
公开(公告)号:WO2022237448A1
公开(公告)日:2022-11-17
申请号:PCT/CN2022/087029
申请日:2022-04-15
Applicant: 京东科技控股股份有限公司
Inventor: 付立
IPC: G10L15/04 , G10L15/06 , G10L15/26 , H04N21/435
Abstract: 本公开公开了一种语音识别训练集的生成方法及装置。方法的一具体实施方式包括:获取待处理音频和待处理视频,其中,待处理视频中包括对应于待处理音频的文本信息;识别待处理音频,得到音频文本;识别待处理视频中的文本信息,得到视频文本;基于音频文本与视频文本的一致性,以待处理音频为语音样本,以视频文本为标签,得到语音识别训练集。
-
公开(公告)号:WO2022211590A1
公开(公告)日:2022-10-06
申请号:PCT/KR2022/004741
申请日:2022-04-01
Applicant: SAMSUNG ELECTRONICS CO., LTD.
Inventor: PARK, Hyunbin , CHOI, Jin
Abstract: An electronic device is provided. The electronic device includes a microphone, and at least one processor operatively connected to the microphone, wherein the at least one processor may include a buffer memory configured to store a first feature vector for a first voice signal obtained from the microphone as an inverse value, and an operation circuit configured to perform a norm operation for a first feature vector and a second feature vector, based on the second feature vector, based on a second voice signal streamed from the microphone and an inverse value of the first feature vector stored in the buffer memory, or calculate a similarity between the first feature vector and the second feature vector. In addition, various embodiments identified through the specification are possible.
-
公开(公告)号:WO2022177224A1
公开(公告)日:2022-08-25
申请号:PCT/KR2022/001959
申请日:2022-02-09
Applicant: 삼성전자 주식회사
Abstract: 전자 장치가 제공된다. 전자 장치는, 프로세서 및 상기 프로세서와 작동적으로 연결된 메모리를 포함한다. 상기 메모리는, 실행 시에 상기 프로세서가, 상기 전자 장치에 포함되거나 작동적으로 연결된 사용자 계정을 이용하여 상기 사용자의 적어도 하나 이상의 발화 기록을 추출하고, 상기 추출된 적어도 하나 이상의 발화 기록을 분석하고, 상기 분석된 발화 기록을 기반으로 적어도 하나 이상의 동작들이 포함된 발화 집합을 생성하고, 상기 발화 집합에 대응하는 적어도 하나 이상의 단축 명령어 이름을 생성하고, 상기 적어도 하나 이상의 단축 명령어 이름을 포함한 응답 데이터를 제공하도록 하는 인스트럭션들을 저장할 수 있다.
-
公开(公告)号:WO2022152751A1
公开(公告)日:2022-07-21
申请号:PCT/EP2022/050545
申请日:2022-01-12
Inventor: STRAHM, Martin Christian , ZHANG, Yan-Ping , ZHOU, Qian
Abstract: Methods of assessing the pathological and/or physiological state of a subject, methods of monitoring a subject with heart failure or a subject that has been diagnosed as having or being at risk of having a condition associated with dyspnea and/or fatigue, and methods of diagnosing a subject as having decompensated heart failure are provided. The methods comprise obtaining a voice recording from a word-reading test from the subject, wherein the voice recording is from a word-reading test comprising reading a sequence of words drawn from a set of n words and analysing the voice recording, or a portion thereof. The analysing can comprise identifying a plurality of segments of the voice recording that correspond to single words or syllables; determining the value of one or more metrics selected from the breathing %, unvoicing/voicing ratio, voice pitch and correct word rate at least in part based on the identified segments; and comparing the value of the one or more metrics with one or more respective reference values. Related systems and products are also described.
-
-
-
-
-
-
-
-
-