-
公开(公告)号:CN112348073B
公开(公告)日:2024-05-17
申请号:CN202011193575.1
申请日:2020-10-30
申请人: 北京达佳互联信息技术有限公司
IPC分类号: G06F18/214 , G06F40/279 , G06F16/33
摘要: 本公开关于一种多音字识别方法、装置、电子设备及存储介质,涉及信息识别技术领域。方法包括:将待处理文本序列输入完成训练的多音字识别模型,得到所述多音字识别模型输出的预测概率值最高的N个候选音节序列,再将所述N个候选音节序列,输入完成训练的语言模型,分别获得各个候选音节序对应的第一概率,输出第一概率最大的候选音节序列,作为所述待处理文本序列的多音字识别结果。这样,而且提高了对多音字识别模型进行训练的样本的数量和覆盖面,并考虑到弱监督样本数据可能引入的噪声,采用语言模型对多音字识别模型输出的预测结果进行重新评估,进而完成输出,保证训练后得到的多音字识别模型的可靠性。
-
公开(公告)号:CN114974224A
公开(公告)日:2022-08-30
申请号:CN202210767379.3
申请日:2022-06-30
申请人: 北京达佳互联信息技术有限公司
摘要: 本公开关于一种语音意图识别模型的训练方法、语音意图识别方法和装置,训练方法包括:获取文本样本和携带有语义标签的第一语音样本,其中,第一语音样本与文本样本的内容对应,语义标签为文本样本的文本语义特征;利用第一语音样本,对待训练的语音意图识别模型中的语义提取网络进行预训练,得到预训练的语音意图识别模型,其中,预训练的语音意图识别模型中包括预训练的语义提取网络和待训练的意图识别网络;获取携带有意图标签的第二语音样本;利用第二语音样本,对预训练的语音意图识别模型进行训练,得到训练完成的语音意图识别模型。
-
公开(公告)号:CN114817632A
公开(公告)日:2022-07-29
申请号:CN202110112996.5
申请日:2021-01-27
申请人: 北京达佳互联信息技术有限公司
IPC分类号: G06F16/75 , G06F16/783
摘要: 本公开是关于一种主题标签生成方法、装置、电子设备及存储介质,属于计算机技术领域。方法包括:对直播视频流进行意图识别,得到直播视频流中的至少一个视频片段的意图类型,从直播视频流中,提取属于目标意图类型的目标视频片段,在数据库中查询目标视频片段关联的目标语料信息,基于目标语料信息生成目标视频片段的主题标签,主题标签用于表示目标视频片段的主题内容。本公开实施例提供的方法,提供了一种自动提取视频片段的方式,使提取视频片段的过程更加智能化,提高了提取视频片段过程的便捷性,并通过目标视频片段关联的语料信息,为视频片段生成匹配的主题标签,实现了对视频片段中内容的理解,便于对视频片段的管理。
-
公开(公告)号:CN113312516A
公开(公告)日:2021-08-27
申请号:CN202110558410.8
申请日:2021-05-21
申请人: 北京达佳互联信息技术有限公司
发明人: 漆跃昕 , 高帆 , 叶小瑜 , 梅晓茸 , 刘旭东 , 张梦馨 , 陈铁军 , 徐智伟 , 赵媛媛 , 李杰 , 曲贺 , 袁肇豪 , 唐小辉 , 郭勇 , 王妍 , 李德智 , 王昊 , 张玕 , 赵士强
摘要: 本申请实施例提供一种视频处理方法及相关装置,从具有展示对象的直播回放视频段中解析出包含展示对象的关键帧,并从展示视频的音视频资源中获取该展示视频的广告素材,以此减少广告素材的获取时间周期。进一步的,对所提取到的广告素材进行特效处理后,将广告素材合成到展示视频中。以此尽可能的解决相关技术中缺少一种能够批量化的智能产出优质创意展示视频素材的方案的问题。
-
公开(公告)号:CN112017670B
公开(公告)日:2021-11-02
申请号:CN202010814133.8
申请日:2020-08-13
申请人: 北京达佳互联信息技术有限公司
摘要: 本公开关于一种目标账户音频的识别方法、装置、设备及介质,用以识别目标账户的音频,提高语音内容识别的准确性,同时保护账户隐私。本公开的目标账户音频的识别方法,包括:获取待识别音频;利用预先训练的语音检测模型确定所述待识别音频的声纹特征以及所述待识别音频的评价参数,其中,所述语音检测模型是基于预先采集的非目标账户的语音音频、非人类语音音频、目标账户的语音音频、以及预先配置的加权损失函数训练生成的,所述评价参数用于表征所述待识别音频的声纹特征与预先确定的目标账户音频的声纹特征的相似度;在确定所述待识别音频的评价参数大于或等于第一预设阈值时,确定所述待识别音频为所述目标账户的音频。
-
公开(公告)号:CN110648658A
公开(公告)日:2020-01-03
申请号:CN201910840757.4
申请日:2019-09-06
申请人: 北京达佳互联信息技术有限公司
IPC分类号: G10L15/06 , G10L15/02 , G10L19/005 , G10L19/04 , G10L25/24
摘要: 本公开关于一种语音识别模型的生成方法、装置及电子设备,用于提高模型识别的准确率和识别效果。该方法包括:获取训练样本,每个训练样本包括语音帧序列及对应的标注文本序列;将所述语音帧序列作为所述编码器的输入特征,将所述语音帧序列的语音编码帧作为所述编码器的输出特征,对所述编码器进行训练;将所述语音编码帧作为所述解码器的输入特征,将所述语音帧序列对应的标注文本序列作为输出特征对解码器进行训练,得到当前预测文本序列,将所述语音编码帧作为所述解码器的输入特征,将所述语音帧序列对应的标注文本序列及所述当前预测文本序列按照预设概率采样后合并得到的序列作为输出特征,对所述解码器进行再次训练。
-
公开(公告)号:CN110648658B
公开(公告)日:2022-04-08
申请号:CN201910840757.4
申请日:2019-09-06
申请人: 北京达佳互联信息技术有限公司
IPC分类号: G10L15/06 , G10L15/02 , G10L19/005 , G10L19/04 , G10L25/24
摘要: 本公开关于一种语音识别模型的生成方法、装置及电子设备,用于提高模型识别的准确率和识别效果。该方法包括:获取训练样本,每个训练样本包括语音帧序列及对应的标注文本序列;将所述语音帧序列作为所述编码器的输入特征,将所述语音帧序列的语音编码帧作为所述编码器的输出特征,对所述编码器进行训练;将所述语音编码帧作为所述解码器的输入特征,将所述语音帧序列对应的标注文本序列作为输出特征对解码器进行训练,得到当前预测文本序列,将所述语音编码帧作为所述解码器的输入特征,将所述语音帧序列对应的标注文本序列及所述当前预测文本序列按照预设概率采样后合并得到的序列作为输出特征,对所述解码器进行再次训练。
-
公开(公告)号:CN110634483B
公开(公告)日:2021-06-18
申请号:CN201910829244.3
申请日:2019-09-03
申请人: 北京达佳互联信息技术有限公司
摘要: 本公开关于一种人机交互方法、装置、电子设备及存储介质。该方法包括:当检测到语音时,判断所述语音中是否包含有唤醒词;其中,所述唤醒词为用于唤醒所述社交互动客户端中的虚拟形象的语音片段;当判断出所述语音中包含所述唤醒词时,唤醒所述虚拟形象,并接收用户给出的语音指令;执行所述语音指令所指示的目标操作,并通过所述虚拟形象输出反馈信息;其中,所述反馈信息为用于表征所述目标操作的操作结果的信息。本公开可以提高在社交互动客户端中的人机交互的趣味性。
-
公开(公告)号:CN112348073A
公开(公告)日:2021-02-09
申请号:CN202011193575.1
申请日:2020-10-30
申请人: 北京达佳互联信息技术有限公司
IPC分类号: G06K9/62 , G06F40/279 , G06F16/33
摘要: 本公开关于一种多音字识别方法、装置、电子设备及存储介质,涉及信息识别技术领域。方法包括:将待处理文本序列输入完成训练的多音字识别模型,得到所述多音字识别模型输出的预测概率值最高的N个候选音节序列,再将所述N个候选音节序列,输入完成训练的语言模型,分别获得各个候选音节序对应的第一概率,输出第一概率最大的候选音节序列,作为所述待处理文本序列的多音字识别结果。这样,而且提高了对多音字识别模型进行训练的样本的数量和覆盖面,并考虑到弱监督样本数据可能引入的噪声,采用语言模型对多音字识别模型输出的预测结果进行重新评估,进而完成输出,保证训练后得到的多音字识别模型的可靠性。
-
公开(公告)号:CN112017670A
公开(公告)日:2020-12-01
申请号:CN202010814133.8
申请日:2020-08-13
申请人: 北京达佳互联信息技术有限公司
摘要: 本公开关于一种目标账户音频的识别方法、装置、设备及介质,用以识别目标账户的音频,提高语音内容识别的准确性,同时保护账户隐私。本公开的目标账户音频的识别方法,包括:获取待识别音频;利用预先训练的语音检测模型确定所述待识别音频的声纹特征以及所述待识别音频的评价参数,其中,所述语音检测模型是基于预先采集的非目标账户的语音音频、非人类语音音频、目标账户的语音音频、以及预先配置的加权损失函数训练生成的,所述评价参数用于表征所述待识别音频的声纹特征与预先确定的目标账户音频的声纹特征的相似度;在确定所述待识别音频的评价参数大于或等于第一预设阈值时,确定所述待识别音频为所述目标账户的音频。
-
-
-
-
-
-
-
-
-