-
公开(公告)号:WO2023087779A1
公开(公告)日:2023-05-25
申请号:PCT/CN2022/108750
申请日:2022-07-28
Applicant: 南通大学
Abstract: 基于多目标优化的饱和潜水氦语音解读方法和系统,方法包括选择滤波器结构,构建潜水员语言音标库、潜水员工作语言字库,由潜水员朗读生成音标标准语音库、工作用字语音库和音标氦语音库,滤波器利用多目标优化算法设计其冲激响应系数,将潜水员在饱和潜水作业时的工作语音按字逐字进行标签抽样形成氦语音标签信号,对标签抽样后的氦语音信号逐字进行校正与解读,并不断更新冲激响应系数,完成氦语音的解读。
-
公开(公告)号:WO2023087767A1
公开(公告)日:2023-05-25
申请号:PCT/CN2022/107228
申请日:2022-07-22
Applicant: 北京优幕科技有限责任公司
Inventor: 蒋成林
Abstract: 一种适用于语音识别模型的训练数据生成方法及设备,适用于语音识别模型的训练数据生成方法包括:获取语音数据;由多个语音识别模型分别对语音数据进行识别,输出多个文本数据;根据多个文本数据得到目标文本数据;获取语音测评模型(13)对目标文本数据和语音数据的测评结果;对测评结果进行判断,如果测评结果符合预期,则将目标文本和语音数据组合为训练数据。
-
公开(公告)号:WO2023073945A1
公开(公告)日:2023-05-04
申请号:PCT/JP2021/040095
申请日:2021-10-29
Applicant: パイオニア株式会社
Inventor: 石原 義大
Abstract: 情報処理装置(200)は、第1の発話音声が入力された後に、所定の対象物に触れることで情報入力する第2の入力操作が行われた場合には、第1の発話音声が示す発話内容と、第2の入力操作が示す操作内容とに基づいて、第2の入力操作が発話内容を訂正するための訂正操作であるか否かを判定する訂正操作判定部(237)と、訂正操作判定部(237)により第2の入力操作が訂正操作であると判定された場合には、操作内容と、発話内容とを紐付ける紐付部(134)と、紐付部(134)による紐付結果に基づいて、発話内容に対する所定の制御を行う情報制御部(136)とを有する。
-
4.
公开(公告)号:WO2023059959A1
公开(公告)日:2023-04-13
申请号:PCT/US2022/075242
申请日:2022-08-19
Applicant: GOOGLE LLC
Inventor: ZHANG, Chao , LI, Bo , LU, Zhiyun , SAINATH, Tara N , CHANG, Shuo-yiin
IPC: G10L15/06 , G10L15/16 , G06N7/01 , G10L15/063 , G10L15/30
Abstract: A speech recognition model includes an encoder network (220), a prediction network (230), and a joint network (210). The encoder network is configured to receive a sequence of acoustic frames (222) characterizing an input utterance; and generate, at each of a plurality of output steps, a higher order feature representation (224) for a corresponding acoustic frame. The prediction network is configured to: receive a sequence of non-blank symbols (242) output by a final Softmax layer (240); and generate, at each of the plurality of output steps, a dense representation (232). The joint network (210) is configured to generate, at each of the plurality of output steps based on the higher order feature representation and the dense representation, a probability distribution (212) over possible speech recognition hypotheses. The joint network includes a stack of gating (260) and bilinear pooling (250) to fuse the dense representation and the higher order feature representation.
-
公开(公告)号:WO2023027308A1
公开(公告)日:2023-03-02
申请号:PCT/KR2022/008593
申请日:2022-06-17
Applicant: 삼성전자 주식회사
Abstract: 본 발명의 다양한 실시 예들은 서로 다른 위치에 배치된 복수의 카메라들, 서로 다른 위치에 배치된 복수의 마이크들, 메모리, 및 상기 복수의 카메라들, 상기 복수의 마이크들, 및 상기 메모리 중 적어도 하나와 작동적으로 연결된 프로세서를 포함하고, 상기 프로세서는, 상기 복수의 카메라들 중 적어도 하나를 이용하여 상기 전자 장치를 착용한 사용자 또는 상기 사용자와 대화하는 상대방 중 적어도 하나가 발화하는지 여부를 판단하고, 상기 판단 결과에 기반하여 상기 복수의 마이크들 중 적어도 하나의 지향성을 설정하고, 상기 설정된 지향성에 기반하여 상기 복수의 마이크들 중 적어도 하나로부터 오디오를 획득하고, 상기 복수의 카메라들 중 적어도 하나로부터 상기 사용자 또는 상기 상대방의 입 모양이 포함된 이미지를 획득하고, 상기 획득한 오디오 및 상기 이미지에 기반하여 발화하는 대상의 음성을 서로 다른 방식으로 처리하도록 설정된 방법 및 장치에 관하여 개시한다. 다양한 실시 예들이 가능하다.
-
公开(公告)号:WO2023009659A1
公开(公告)日:2023-02-02
申请号:PCT/US2022/038571
申请日:2022-07-27
Applicant: CARR, Kevin
Inventor: CARR, Kevin
Abstract: A method, computer program product, and computing system for monitoring the diction of a prescription recipient using a virtual assistant; processing at least a portion of the diction to identify at least one prescription refill task; and if at least one prescription refill task is detected, effectuating the at least one prescription refill task on a medical management system.
-
公开(公告)号:WO2023005729A1
公开(公告)日:2023-02-02
申请号:PCT/CN2022/106426
申请日:2022-07-19
Applicant: 北京有竹居网络技术有限公司
IPC: G10L15/00 , G10L15/02 , G10L15/06 , G10L15/183
Abstract: 一种语音信息处理方法,该方法包括:获取至少一帧待翻译语音信息的第一声学特征信息(101);在流式语音识别下,确定第一声学特征信息是否对应完整语义(102);响应于确定结果为是,对第一声学特征信息执行翻译操作,得到对应的翻译结果(103)。可提高翻译结果的准确度,降低翻译结果的输出延迟。还涉及一种语音信息处理装置、语音信息处理模型、语音信息处理模型训练方法、语音信息处理模型训练装置、电子设备以及计算机可读介质。
-
公开(公告)号:WO2023279199A1
公开(公告)日:2023-01-12
申请号:PCT/CA2022/051054
申请日:2022-07-04
Applicant: A.I. VALI INC.
Inventor: AZAD, Azar , XIONG, Bo , ARMSTRONG, David , FANG, Qiyin , FLEET, David , LIVNE, Micha
IPC: G16H30/40 , A61B1/00 , G06N3/08 , G06T7/00 , G06V10/25 , G06V10/44 , G06V10/82 , G06V10/764 , G10L15/06 , G10L15/26
Abstract: Various embodiments are described herein for a system for analyzing images and speech obtained during a medical diagnostic procedure for automatically generated annotated images using annotation data for one or more images 5 having at least one object of interest (OOI) and a classification where the annotation data includes text that is generated from speech provided by the user commenting on the one or more images having the at least one OOI.
-
公开(公告)号:WO2023273610A1
公开(公告)日:2023-01-05
申请号:PCT/CN2022/091477
申请日:2022-05-07
Applicant: 北京有竹居网络技术有限公司
IPC: G10L15/06 , G10L15/16 , G10L15/26 , G10L15/063
Abstract: 本公开提供一种语音识别方法、装置、介质及电子设备,所述方法包括:对接收到的语音数据进行编码,获得所述语音数据对应的声学向量序列;根据所述声学向量序列和第一预测模型,获得所述语音数据对应的信息量序列和第一概率序列;根据所述声学向量序列和第二预测模型,获得第二概率序列;根据所述第一概率序列和所述第二概率序列,确定目标概率序列;根据所述目标概率序列,确定所述语音数据对应的目标文本。
-
公开(公告)号:WO2023273578A1
公开(公告)日:2023-01-05
申请号:PCT/CN2022/089595
申请日:2022-04-27
Applicant: 北京有竹居网络技术有限公司
IPC: G10L15/02 , G10L15/26 , G10L15/06 , G10L15/063
Abstract: 一种语音识别方法、装置、计算机可读介质及设备,其中该方法包括:接收待识别语音数据(11);根据该待识别语音数据、热词信息和语音识别模型,获得该待识别语音数据对应的目标文本(12);其中,热词信息包含多个热词对应的文本序列和音标序列;语音识别模型包括语音识别子模型和语境识别子模型,其中该语境识别子模型是基于训练词语以及训练词语的音标序列、文本序列以及训练标签进行训练的。由此,在语境识别子模型进行训练时是结合训练数据的发音特征和文本特征进行训练的,可以基于该发音特征对拼写或发音相近的各个热词进行准确区分,因此对热词进行识别时,避免对热词的混淆识别,进一步提高语音识别的准确性。
-
-
-
-
-
-
-
-
-