大量说话人识别(ID)系统及其相应方法

    公开(公告)号:CN1662956A

    公开(公告)日:2005-08-31

    申请号:CN03814215.5

    申请日:2003-06-04

    IPC分类号: G10L17/00

    CPC分类号: G10L15/04 G10L17/00

    摘要: 一种存储器,存储用于使与大量说话人识别(ID)系统相关联的处理器实例化包括以下项的功能的计算机可读指令:音频分段和分类功能(F10),接收一般音频数据(GAD),并且产生多个段;特征提取功能(F12),接收这些段,并且从中提取基于Me1倒谱系数(MFCC)的特征;学习和聚类功能(14),接收所提取的特征,并且根据所提取的特征在必要时对段进行重新分类;匹配和标注功能(16),将说话人ID分配给GAD内的语音信号;以及数据库功能,用于将所分配的说话人ID与GAD内的相应语音信号相联系。音频分段和分类功能可以将每个段分配给N个音频信号类之一,其中N个音频信号类包括静默、单个说话人的语音、音乐、环境噪声、多个说话人的语音、同时语音和音乐、以及语音和噪声。