一种目录搜索方法及相关的系统

    公开(公告)号:CN1892647A

    公开(公告)日:2007-01-10

    申请号:CN200510082715.7

    申请日:2005-07-07

    Abstract: 本发明公开了一种用于通过电话按键进行目录搜索的方法和系统。在第一方面,所述方法通过通信终端对用于语音交互应答系统的目录服务器进行目录搜索,通信终端具有数字按键键盘,通信终端和语音交互应答系统之间通过通信网络连接,语音交互应答系统和目录服务器相连,目录服务器存有多个中文或中英文目录,对所述目录建立中文汉字的拼音索引,数字按键和拼音索引的英文字母之间存在映射关系;该方法包括:通信终端接收通过数字按键输入的数字串;通信终端将该数字串通过语音交互应答系统提供给目录服务器;目录服务器根据映射关系和拼音索引,将数字串转换为所述多个目录中的一个。本发明能够让用户在交互式应答系统中快速找到所需的信息。

    一种基于变分自编码器的多说话人语音合成方法

    公开(公告)号:CN112289304B

    公开(公告)日:2024-05-31

    申请号:CN201910671050.5

    申请日:2019-07-24

    Abstract: 本发明公开了一种基于变分自编码器的多说话人语音合成方法,包括:提取一条待合成说话人干净语音的音素级别时长参数和帧级别声学参数,将归一化的音素级别时长参数输入第一变分自编码器,输出时长说话人标签;将归一化的帧级别声学参数输入第二变分自编码器,输出声学说话人标签;对待合成的包含多个说话人的语音信号提取帧级别语言学特征和音素级别语言学特征;将时长说话人标签和归一化的音素级别语言学特征输入时长预测网络,输出当前音素预测时长;通过当前音素预测时长获得该音素的帧级别语言学特征,将其与声学说话人标签输入声学参数预测网络,输出归一化的预测语音的声学参数;将归一化的预测语音声学参数输入声码器,输出合成语音信号。

    一种基于空洞卷积神经网络的端到端语种识别分类方法

    公开(公告)号:CN113539238B

    公开(公告)日:2023-12-08

    申请号:CN202010247070.2

    申请日:2020-03-31

    Abstract: 本发明公开了一种基于空洞卷积神经网络的端到端语种识别分类方法,包括:待训练语种识别网络接收,并对训练语音中提取的帧级别声学底层特征进行至少一层空洞卷积后,输出训练语音后验概率;将训练语音后验概率与真实类别标签的最小均方误差作为待训练语种识别网络的损失函数,通过减小优化函数的值进行梯度回传并更新待训练语种识别网络的参数,得到训练后语种识别网络;提取测试语音的帧级别声学底层特征;训练后语种识别网络接收测试语音的帧级别声学底层特征,输出测试语音后验概率;根据测试语音后验概率判定测试语音中的至少一个语种类别。在输出特征图的分辨率不变的情况(56)对比文件金马 等.基于卷积神经网络的语种识别系统《.数据采集与处理》.2019,第34卷(第2期),第321-330页.

    一种基于降噪自动编码器的语种识别分类方法及装置

    公开(公告)号:CN110858477B

    公开(公告)日:2022-05-03

    申请号:CN201810916756.9

    申请日:2018-08-13

    Abstract: 本发明提供一种基于降噪自动编码器的语种识别分类方法,其包括:步骤1)从待识别的语音片段中提取待识别的语音信号,获得底层声学特征;步骤2)从步骤1)获得的底层声学特征提取原始i‑vector;步骤3)计算并获得音素向量pc(u);步骤4)将原始i‑vector与音素向量pc(u)进行拼接,将其输入至基于DAE的i‑vector补偿网络,获得补偿后的i‑vector;步骤5)分别将步骤2)获得的原始i‑vector和步骤4)获得的补偿后的i‑vector输入至预先训练的逻辑回归分类器,获得对应的分数向量;步骤6)对步骤5)获得的对应的分数向量,进行分数融合,得到最终的分数向量,进而得到各个语种类别的概率,并判定所属的语种类别。

Patent Agency Ranking