基于多目标优化的饱和潜水氦语音解读方法及系统

    公开(公告)号:WO2023087779A1

    公开(公告)日:2023-05-25

    申请号:PCT/CN2022/108750

    申请日:2022-07-28

    Applicant: 南通大学

    Inventor: 张士兵 吴建绒

    Abstract: 基于多目标优化的饱和潜水氦语音解读方法和系统,方法包括选择滤波器结构,构建潜水员语言音标库、潜水员工作语言字库,由潜水员朗读生成音标标准语音库、工作用字语音库和音标氦语音库,滤波器利用多目标优化算法设计其冲激响应系数,将潜水员在饱和潜水作业时的工作语音按字逐字进行标签抽样形成氦语音标签信号,对标签抽样后的氦语音信号逐字进行校正与解读,并不断更新冲激响应系数,完成氦语音的解读。

    适用于语音识别模型的训练数据生成方法及设备

    公开(公告)号:WO2023087767A1

    公开(公告)日:2023-05-25

    申请号:PCT/CN2022/107228

    申请日:2022-07-22

    Inventor: 蒋成林

    Abstract: 一种适用于语音识别模型的训练数据生成方法及设备,适用于语音识别模型的训练数据生成方法包括:获取语音数据;由多个语音识别模型分别对语音数据进行识别,输出多个文本数据;根据多个文本数据得到目标文本数据;获取语音测评模型(13)对目标文本数据和语音数据的测评结果;对测评结果进行判断,如果测评结果符合预期,则将目标文本和语音数据组合为训练数据。

    情報処理装置、情報処理方法および情報処理プログラム

    公开(公告)号:WO2023073945A1

    公开(公告)日:2023-05-04

    申请号:PCT/JP2021/040095

    申请日:2021-10-29

    Inventor: 石原 義大

    Abstract: 情報処理装置(200)は、第1の発話音声が入力された後に、所定の対象物に触れることで情報入力する第2の入力操作が行われた場合には、第1の発話音声が示す発話内容と、第2の入力操作が示す操作内容とに基づいて、第2の入力操作が発話内容を訂正するための訂正操作であるか否かを判定する訂正操作判定部(237)と、訂正操作判定部(237)により第2の入力操作が訂正操作であると判定された場合には、操作内容と、発話内容とを紐付ける紐付部(134)と、紐付部(134)による紐付結果に基づいて、発話内容に対する所定の制御を行う情報制御部(136)とを有する。

    FUSION OF ACOUSTIC AND TEXT REPRESENTATIONS IN AN AUTOMATIC SPEECH RECOGNITION SYSTEM IMPLEMENTED AS A RNN-T

    公开(公告)号:WO2023059959A1

    公开(公告)日:2023-04-13

    申请号:PCT/US2022/075242

    申请日:2022-08-19

    Applicant: GOOGLE LLC

    Abstract: A speech recognition model includes an encoder network (220), a prediction network (230), and a joint network (210). The encoder network is configured to receive a sequence of acoustic frames (222) characterizing an input utterance; and generate, at each of a plurality of output steps, a higher order feature representation (224) for a corresponding acoustic frame. The prediction network is configured to: receive a sequence of non-blank symbols (242) output by a final Softmax layer (240); and generate, at each of the plurality of output steps, a dense representation (232). The joint network (210) is configured to generate, at each of the plurality of output steps based on the higher order feature representation and the dense representation, a probability distribution (212) over possible speech recognition hypotheses. The joint network includes a stack of gating (260) and bilinear pooling (250) to fuse the dense representation and the higher order feature representation.

    발화 대상을 구분하여 음성 처리하는 방법 및 장치

    公开(公告)号:WO2023027308A1

    公开(公告)日:2023-03-02

    申请号:PCT/KR2022/008593

    申请日:2022-06-17

    Abstract: 본 발명의 다양한 실시 예들은 서로 다른 위치에 배치된 복수의 카메라들, 서로 다른 위치에 배치된 복수의 마이크들, 메모리, 및 상기 복수의 카메라들, 상기 복수의 마이크들, 및 상기 메모리 중 적어도 하나와 작동적으로 연결된 프로세서를 포함하고, 상기 프로세서는, 상기 복수의 카메라들 중 적어도 하나를 이용하여 상기 전자 장치를 착용한 사용자 또는 상기 사용자와 대화하는 상대방 중 적어도 하나가 발화하는지 여부를 판단하고, 상기 판단 결과에 기반하여 상기 복수의 마이크들 중 적어도 하나의 지향성을 설정하고, 상기 설정된 지향성에 기반하여 상기 복수의 마이크들 중 적어도 하나로부터 오디오를 획득하고, 상기 복수의 카메라들 중 적어도 하나로부터 상기 사용자 또는 상기 상대방의 입 모양이 포함된 이미지를 획득하고, 상기 획득한 오디오 및 상기 이미지에 기반하여 발화하는 대상의 음성을 서로 다른 방식으로 처리하도록 설정된 방법 및 장치에 관하여 개시한다. 다양한 실시 예들이 가능하다.

    HANDSFREE COMMUNICATION SYSTEM AND METHOD
    6.
    发明申请

    公开(公告)号:WO2023009659A1

    公开(公告)日:2023-02-02

    申请号:PCT/US2022/038571

    申请日:2022-07-27

    Applicant: CARR, Kevin

    Inventor: CARR, Kevin

    Abstract: A method, computer program product, and computing system for monitoring the diction of a prescription recipient using a virtual assistant; processing at least a portion of the diction to identify at least one prescription refill task; and if at least one prescription refill task is detected, effectuating the at least one prescription refill task on a medical management system.

    语音信息处理方法、装置和电子设备

    公开(公告)号:WO2023005729A1

    公开(公告)日:2023-02-02

    申请号:PCT/CN2022/106426

    申请日:2022-07-19

    Abstract: 一种语音信息处理方法,该方法包括:获取至少一帧待翻译语音信息的第一声学特征信息(101);在流式语音识别下,确定第一声学特征信息是否对应完整语义(102);响应于确定结果为是,对第一声学特征信息执行翻译操作,得到对应的翻译结果(103)。可提高翻译结果的准确度,降低翻译结果的输出延迟。还涉及一种语音信息处理装置、语音信息处理模型、语音信息处理模型训练方法、语音信息处理模型训练装置、电子设备以及计算机可读介质。

    语音识别方法、装置、介质及电子设备

    公开(公告)号:WO2023273610A1

    公开(公告)日:2023-01-05

    申请号:PCT/CN2022/091477

    申请日:2022-05-07

    Inventor: 董林昊 马泽君

    Abstract: 本公开提供一种语音识别方法、装置、介质及电子设备,所述方法包括:对接收到的语音数据进行编码,获得所述语音数据对应的声学向量序列;根据所述声学向量序列和第一预测模型,获得所述语音数据对应的信息量序列和第一概率序列;根据所述声学向量序列和第二预测模型,获得第二概率序列;根据所述第一概率序列和所述第二概率序列,确定目标概率序列;根据所述目标概率序列,确定所述语音数据对应的目标文本。

    语音识别方法、装置、介质及设备

    公开(公告)号:WO2023273578A1

    公开(公告)日:2023-01-05

    申请号:PCT/CN2022/089595

    申请日:2022-04-27

    Abstract: 一种语音识别方法、装置、计算机可读介质及设备,其中该方法包括:接收待识别语音数据(11);根据该待识别语音数据、热词信息和语音识别模型,获得该待识别语音数据对应的目标文本(12);其中,热词信息包含多个热词对应的文本序列和音标序列;语音识别模型包括语音识别子模型和语境识别子模型,其中该语境识别子模型是基于训练词语以及训练词语的音标序列、文本序列以及训练标签进行训练的。由此,在语境识别子模型进行训练时是结合训练数据的发音特征和文本特征进行训练的,可以基于该发音特征对拼写或发音相近的各个热词进行准确区分,因此对热词进行识别时,避免对热词的混淆识别,进一步提高语音识别的准确性。

Patent Agency Ranking