用于音频辨识的扩展的视频镜头媒体引擎

    公开(公告)号:CN102915320A

    公开(公告)日:2013-02-06

    申请号:CN201210206001.2

    申请日:2012-06-14

    申请人: 索尼公司

    IPC分类号: G06F17/30

    摘要: 本发明公开了用于音频辨识的扩展的视频镜头媒体引擎。用于自动分析多媒体数据的系统、方法和计算机程序产品被公开。实施例接收多媒体数据;检测具有指定的音频特征的部分;并且输出多媒体数据的相应子集和生成的元数据。包括下载的或流传输的电影中的语音、非语音的声音和隐藏字幕在内的音频内容特征像人们可能做的那样被识别,然而实质上是实时的。特定说话者、最有意义的内容声音以及字词和相应的时间戳经由数据库比较被辨识,并且可按照匹配概率的次序被呈现。实施例响应性地预先取得相关数据、辨识地点并且提供相关广告。内容特征也可被发送给搜索引擎从而进一步的相关内容可被识别。用户反馈和确认可随时间过去而改进实施例。