语音表征模型预训练方法、装置、电子设备及存储介质

    公开(公告)号:CN118737129A

    公开(公告)日:2024-10-01

    申请号:CN202410947093.2

    申请日:2024-07-15

    发明人: 易澄 曲贺

    IPC分类号: G10L15/06 G10L15/02 G10L15/34

    摘要: 本公开关于语音表征模型预训练方法、装置、电子设备及存储介质,该方法包括:随机初始化映射矩阵和码本集合,基于映射矩阵对样本语音的音频帧序列中各音频帧分别进行向量映射处理得到各音频帧的映射向量;从码本集合中搜索与各映射向量相匹配的目标码本向量并将其目标索引作为相应音频帧的参考离散化标签;将经遮蔽的音频帧序列输入待训练语音表征模型进行语音表征处理得到语音表征结果;对语音表征结果中对应各被遮蔽位置的表征结果分别进行离散化标签预测;基于各被遮蔽位置对应的预测离散化标签与相应参考离散化标签之间的差异,调整待训练语音表征模型的模型参数以得到预训练的语音表征模型。本公开提高了语音表征模型的预训练速度和稳定性。

    一种语音处理方法、装置及存储介质

    公开(公告)号:CN111968680B

    公开(公告)日:2024-10-01

    申请号:CN202010819665.0

    申请日:2020-08-14

    发明人: 姬光飞

    摘要: 本公开是关于一种语音处理方法、装置及存储介质。该方法应用于电子设备,所述方法包括:采集音频数据,获取云服务器基于所述音频数据得到的第一语音识别结果;根据所述第一语音识别结果,确定是否进行所述音频数据的语音端点检测。本公开实施例中,在采集到音频数据之后,能够获取云服务器基于音频数据得到的第一语音识别结果,并根据第一语音识别结果确定是否进行音频数据的语音端点检测。通过云服务器的语音识别技术辅助电子设备对音频数据的语音端点进行检测,能够使得检测精确度更高,减少由于环境噪声引起的误判停,进而提高语音交互的成功率,进而提高用户体验感。

    信息处理系统
    4.
    发明授权

    公开(公告)号:CN113160824B

    公开(公告)日:2024-07-19

    申请号:CN202110076094.0

    申请日:2021-01-20

    发明人: 相原圣

    IPC分类号: G10L15/26 G10L15/08 G10L15/34

    摘要: 一种信息处理系统、信息处理装置及程序,相互跨越语音对话智能体而以统一的操作利用由多个语音对话智能体提供的互相类似的服务。主服务器识别从信息处理装置传送来的说话语音,将与识别结果相关的控制指令和基于来自信息处理装置的控制信号的响应数据向信息处理装置输出。副服务器识别从信息处理装置传送来的说话语音,将与识别结果相关的控制指令向信息处理装置输出。信息处理装置的处理器取得用户的说话语音,对分别实现语音对话智能体的主服务器及副服务器中的至少1个传送用户的说话语音,在从副服务器取得了控制指令的情况下,将基于取得的控制指令的控制信号变换为适合于主服务器的控制信号并向主服务器发送。

    一种基于云计算的语音交互方法和系统

    公开(公告)号:CN118314902A

    公开(公告)日:2024-07-09

    申请号:CN202410556594.8

    申请日:2024-05-07

    发明人: 刘永逵 邹炳泉

    摘要: 本发明公开了一种基于云计算的语音交互方法和系统。所述系统包括:本地功能层、云计算层;所述本地功能层包括互相连接语音交互终端、处理服务器;所述云计算层包括依次连接的API网关、负载均衡单元、交互服务器、数据接入单元、数据库服务器,以及与所述交互服务器连接的冗余备份单元。本发明通过云计算平台进行精简的交互运算,实现了在低成本下的高效率语音交互。

    用于神经网络的梯度方向数据分割的方法和计算机系统

    公开(公告)号:CN110892477B

    公开(公告)日:2024-06-07

    申请号:CN201880047073.2

    申请日:2018-06-01

    发明人: J·K·贝克尔

    IPC分类号: G10L15/34 G10L25/30

    摘要: 系统和方法通过分割训练数据来改善已经收敛的网络的性能,使得网络的梯度和所有偏导数为零(或接近零),使得在分割的训练数据的每个子集上,一些节点或弧(即节点和网络的先前层或后续层之间的连接)具有在分割的数据子集上不同于零的单独偏导数值,尽管它们在整个训练数据集上的偏导数平均值接近零。本系统和方法可以通过分割从零发散的候选节点或弧来创建新的网络,并且然后利用在相应的数据集群上训练的每一个选择的节点来训练结果网络。

    毫米波雷达与麦克风融合的声学传感方法及系统

    公开(公告)号:CN118112557A

    公开(公告)日:2024-05-31

    申请号:CN202211510627.2

    申请日:2022-11-29

    发明人: 彭志波 申祥天

    摘要: 本发明提供一种毫米波雷达与麦克风融合的声学传感方法和系统,包括:利用毫米波雷达对目标声源进行探测获得回波信号,并根据所述回波信号估计其目标声源的振动信息;对所述目标声源的振动信息以及麦克风采集到的信号进行预处理,获得各自的时频图,并基于所述时频图估计目标声源基音和干扰声源基音;根据所述估计目标声源基音和干扰声源基音,对麦克风采集到的信号进行处理,并从中提取目标声源的信号。本发明创造性地融合了麦克风和雷达两类传感器,并结合两者的优势,可实现目标声源基音与干扰声源基音的分离与提取,将为解决现代语音通信与智能交互中的高保真、区域拾音共性技术瓶颈提供新思路与新途径。

    监测语音唤醒的方法及系统、电子设备和可读存储介质

    公开(公告)号:CN117116257A

    公开(公告)日:2023-11-24

    申请号:CN202210534522.4

    申请日:2022-05-17

    发明人: 陈立荣

    摘要: 本申请公开了一种监测语音唤醒的方法及系统、电子设备和可读存储介质,涉及汽车技术领域。该方法包括:响应于确定出用户的实时唇动信息包括与预设唤醒词对应的预设唇动信息,确定所述实时唇动信息与所述预设唇动信息对应的时间信息;响应于确定出用户的实时语音信息不包括与所述预设唤醒词对应的预设语音信息,根据所述时间信息从所述实时语音信息中提取唤醒失败的语音段。本申请通过在用户说出预设唤醒词时确定出实时唇动信息与预设唇动信息对应的时间信息,就能在唤醒失败时根据该时间信息从实时语音信息中提取出唤醒失败的语音段。由于上述语音段是直接从实时语音信息中提取的,因此真实可靠,对于后续改善唤醒率来说极具参考价值。

    基于语音交互的自学式盲文教育系统、装置及工作方法

    公开(公告)号:CN116959309A

    公开(公告)日:2023-10-27

    申请号:CN202310849313.3

    申请日:2023-07-12

    摘要: 基于语音交互的自学式盲文教育系统、装置及工作方法,涉及涉及盲人教育领域,解决了现有技术中解决了现有盲文教育领域的学习机普遍存在着价格昂贵、功能单一、盲人自主操作困难的缺陷。本发明提供以下方案:语音交互的自学式盲文教育系统包括至少一个移动终端、云服务器端和外部设备;语音输入单元,用于将采集语音信息发送给云服务器端;云服务器端,用于将接收的语音信息转换成文本信息,并将文本信息转换成盲文信息;语音输入单元,用于采集外部输入的语音信号,并将其发送给控制系统;盲文点显器,用于根据驱动信号驱动盲文点阵,形成盲文点阵;语音播放单元,用于将接收到的语音信息放大之后播放输出。还适用于盲人语音教学及测试领域。