用于确定音频语句的边界的方法和装置

发明授权

请登陆查看更多内容

专利标题： 用于确定音频语句的边界的方法和装置
申请号： CN201910164569.4

申请日： 2019-03-05
公开(公告)号： CN109754783B

公开(公告)日： 2020-12-25
发明人: 袁胜龙
申请人： 百度在线网络技术(北京)有限公司
申请人地址： 北京市海淀区上地十街10号百度大厦三层
专利权人： 百度在线网络技术(北京)有限公司
当前专利权人： 百度在线网络技术(北京)有限公司
当前专利权人地址： 北京市海淀区上地十街10号百度大厦三层
代理机构： 北京英赛嘉华知识产权代理有限责任公司
代理商 王达佐; 马晓亚
主分类号： G10L15/04
IPC分类号： G10L15/04 ; G10L15/05 ; H04N5/278 ; H04N21/439 ; H04N21/488

摘要：

本公开实施例公开了用于确定音频语句的边界的方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括：将视频资源中的至少三个连续语句拼接成组合句，根据视频资源的字幕文件从视频资源的音频文件中提取出组合句对应的音频信号，将组合句对应的音频信号输入解码器进行解码，得到组合句对应的音素标签序列，从字幕文件中提取出组合句中的目标语句对应的文本，将目标语句对应的文本转换为声韵母序列，目标语句为组成组合句的至少三个连续语句中不在组合句边缘的语句，以及利用目标语句对应的声韵母序列对组合句对应的音素标签序列进行匹配，以确定目标语句的语音边界。该实施方式实现了对视频资源中的语句的音频的精准切分。

公开/授权文献

CN109754783A 用于确定音频语句的边界的方法和装置公开/授权日：2019-05-14

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L15/00	语音识别（G10L17/00优先）
G10L15/04	.分段；字极限检测