-
公开(公告)号:CN113096641B
公开(公告)日:2023-06-13
申请号:CN202110336220.1
申请日:2021-03-29
申请人: 北京大米科技有限公司
IPC分类号: G10L13/10
摘要: 本发明实施例公开了一种信息处理方法及装置,通过确定音频信息和对应的文本信息,得到音频信息对应的多个音频特征向量和文本信息对应的多个文本特征向量。将各音频特征向量和各文本特征向量输入注意力机制层得到多个权重向量序列,以根据各权重向量序列、音频特征向量和文本特征向量确定多个对应于文本信息的参考韵律等级标记,输出具有多个参考韵律等级标记的文本信息。本发明实施例通过引入注意力机制层自动根据音频信息和对应的文本信息确定权重向量,以进一步自动生成文本信息对应的韵律等级标记,提高了文本信息韵律等级标记的效率和标记结果的准确程度。
-
公开(公告)号:CN113284514A
公开(公告)日:2021-08-20
申请号:CN202110547979.4
申请日:2021-05-19
申请人: 北京大米科技有限公司
摘要: 本发明实施例公开了一种音频处理方法和装置,通过确定待检测音频和对应的标准文本,对待检测音频对应的音频片段进行特征提取确定对应的音频特征。并行对各所述音频特征解码,得到对应于至少一个根据表征文本确定的语音单位序列的解码概率序列,以根据述解码概率序列计算待检测音频对应的至少一个发音特征,评价待检测音频的可靠性。本发明实施例通过将待检测音频划分为多个音频片段,并行对各音频片段提取得到的音频特征进行解码,以确定待检测音频的可靠性,提升了音频检测效率。
-
公开(公告)号:CN112541870A
公开(公告)日:2021-03-23
申请号:CN202011435839.X
申请日:2020-12-07
申请人: 北京大米科技有限公司
摘要: 本发明实施例公开了一种视频处理的方法、装置、可读存储介质和电子设备。本发明实施例通过获取第一视频流,所述第一视频流包括至少一帧第一图像;将所述第一图像输入到预先训练的目标检测模型,确定所述第一图像中的目标区域、干扰区域以及背景区域中的至少一项,响应于所述第一图像中包括所述干扰区域以及所述背景区域,根据所述背景区域替换所述干扰区域,生成第二图像;根据所述第二图像生成第二视频流。通过上述方法,确定出第一图像中的干扰区域和背景区域之后,可以通过背景区域替换干扰区域,使生成的第二视频流中只显示目标区域。
-
公开(公告)号:CN112053702A
公开(公告)日:2020-12-08
申请号:CN202011062283.4
申请日:2020-09-30
申请人: 北京大米科技有限公司
摘要: 本发明提供了一种语音处理的方法、装置及电子设备,包括:获取包括至少一个音频信号帧的音频数据;根据各音频信号帧确定所述音频数据的类型,所述类型包括需要降噪和不需要降噪;响应于所述音频数据的类型为需要降噪,确定所述音频数据的信号特征;将所述信号特征输入到预先训练的降噪模型中,确定降噪后的音频数据。通过这种方式,通过降噪模型对音频数据进行处理,能够有效的对音频数据中的噪音进行降噪,获取噪音较小的音频数据。
-
公开(公告)号:CN112562649B
公开(公告)日:2024-01-30
申请号:CN202011435851.0
申请日:2020-12-07
申请人: 北京大米科技有限公司
IPC分类号: G10L15/06 , G10L15/16 , G10L15/26 , G10L17/00 , G10L21/0208
摘要: 本发明实施例公开了一种音频处理的方法、装置、可读存储介质和电子设备。本发明实施例通过获取设定时长的第一音频;将所述第一音频输入到预先训练的音频检测模型,确定所述第一音频中的包括的至少一种语音类型,并确定所述至少一种语音类型中至少一种候选语音类型,其中,所述语音类型包括目标语音、非目标语音、干扰语音或背景噪声中的至少一项;在所述第一音频中通过预先训练的音频处理模型分离所述候选语音类型对应的至少一个音频流;根据所述至少一个音频流确定第二音频。通过上述方法,可以将目标语音对应的音频流从第一音频中分离出来,消除了非目标语音、干扰语音或背景噪声对目标语音的干扰。
-
公开(公告)号:CN112634862B
公开(公告)日:2024-01-23
申请号:CN202011506819.7
申请日:2020-12-18
申请人: 北京大米科技有限公司
IPC分类号: G10L13/027 , G10L13/08 , G09B5/04
摘要: 本发明实施例提供了一种信息交互方法、装置、存储介质和电子设备。本发明实施例的技术方案通过获取文本信息以及与文本信息对应的跟读音频流,根据文本信息对应的标准音素确定跟读音频流中的错误音素,根据错误音素确定纠正信息,将纠正信息发送给跟读者。由此,本发明实施例的技术方案能够根据跟读者的语言水平输出纠正信息。
-
公开(公告)号:CN113076820A
公开(公告)日:2021-07-06
申请号:CN202110287743.1
申请日:2021-03-17
申请人: 北京大米科技有限公司
摘要: 本发明实施例公开了一种图像处理的方法、装置、可读存储介质和电子设备。本发明实施例通过获取第一视频流,确定第一视频流包括的第一图像中人物的第一情感类别;当所述第一情感类别与所述第一图像对应的第二情感类别不同时,根据所述第二情感类别修改所述第一图像中人物的表情,生成第二图像;根据所述第二图像生成第二视频流。通过上述方法,当第一图像中人物的表情影响交流效果时,通过与第一情感类别不同的第二情感类别修改第一图像中人物的表情,得到需要的人物表情,即有效的对人物的表情进行控制,提高交流的效果。
-
公开(公告)号:CN112201225A
公开(公告)日:2021-01-08
申请号:CN202011065772.5
申请日:2020-09-30
申请人: 北京大米科技有限公司
发明人: 陈昌儒
IPC分类号: G10L15/01 , G10L15/22 , G10L15/26 , G10L25/87 , G06N3/08 , G06F16/11 , G06F16/951 , G06F16/955 , G06F40/30
摘要: 本发明实施例公开了一种语料获取的方法、装置、可读存储介质和电子设备。本发明实施例通过爬取网络数据源,获取第一语料信息;根据第一语料信息获取所述第一语料信息对应的第一文本信息;将所述第一语料信息通过语音活动检测VAD模型进行切分,确定切分后的至少一个第二语料信息,并在所述第一文本信息中获取与所述第二语料信息对应的第二文本信息;根据预先训练的打分模型对所述第二语料信息进行打分,响应于所述第二语料信息的分值大于设定阈值,则保存所述第二语料信息以及所述第二语料对应的第二文本信息。通过上述方法,可以基于网络数据源自动确定出高质量的语料信息和文本信息,既提高了收集到的语料的质量,又节约了人力资源。
-
公开(公告)号:CN113051937B
公开(公告)日:2024-07-23
申请号:CN202110298083.7
申请日:2021-03-19
申请人: 北京大米科技有限公司
IPC分类号: G06F40/58 , G06F40/232 , G06Q50/20
摘要: 本申请实施例提供了一种机器纠错方法、装置、电子设备和可读存储介质,涉及计算机技术领域,通过本申请实施例,可以至少通过待纠错文本以及待纠错文本对应的译文(第一文本)确定与待纠错文本同语种的第二文本,其中,该第二文本可以作为针对待纠错文本的正确答案。由于第二文本是至少基于上述待纠错文本和待纠错文本对应的第一文本确定的,所以,第二文本实质上是针对待纠错文本改正后得到的文本,其对待纠错文本具有针对性,也就是说,通过本申请实施例,可以针对不同的待纠错文本给出不同的第二文本,使得在线批改时具有较好的针对性。
-
公开(公告)号:CN112951204B
公开(公告)日:2023-06-13
申请号:CN202110336221.6
申请日:2021-03-29
申请人: 北京大米科技有限公司
IPC分类号: G10L13/08
摘要: 本发明实施例公开了一种语音合成方法和装置,通过确定文本信息以及用于表征文本信息拼读方式的拼读规则,根据拼读规则确定文本信息对应的音素向量序列,其中素向量分别用于表征文本信息中对应的单词。以进一步根据音素向量序列进行语音合成,以确定对应的语音信息。本发明实施例可以通过文本信息的拼读规则直接确定音素向量序列进行语音合成,提高了语音合成效率。
-
-
-
-
-
-
-
-
-