-
-
公开(公告)号:CN115641879B
公开(公告)日:2023-09-01
申请号:CN202211281743.1
申请日:2022-10-19
申请人: 腾讯科技(深圳)有限公司
发明人: 贺思颖
IPC分类号: G10L25/63 , G10L25/78 , G10L25/30 , G10L25/24 , G06N3/0464 , G06N3/044 , G06N3/0475 , G06N3/09 , G06N3/0895 , G06N3/088 , G06N3/092
摘要: 本申请实施例提供了一种音乐标签获取模型训练方法、音乐标签获取方法及装置,涉及人工智能领域。该方法包括:获取至少一个音乐样本,并获取各音乐样本中各时序片段的辅助音乐标签,辅助音乐标签包括至少两个类型辅助音乐标签;基于辅助音乐标签对音乐样本中的各时序片段进行重排和分组,得到各类型辅助音乐标签对应的第一音乐子数据,并对音乐样本对应的各第一音乐子数据进行维度变换,得到各类型辅助音乐标签对应的第二音乐子数据,且不同类型辅助音乐标签对应的第二音乐子数据包含的时序片段的数量相同;分别利用各音乐样本对应的各第二音乐子数据,对音乐标签获取模型进行训练。该方案使得训练得到的音乐标签获取模型的模型参数更准确。
-
公开(公告)号:CN111613208B
公开(公告)日:2023-08-25
申请号:CN202010443438.2
申请日:2020-05-22
申请人: 云知声智能科技股份有限公司 , 厦门云知芯智能科技有限公司
摘要: 本发明提出了一种语种识别方法和设备,该方法包括:将待识别音频分为语音部分与非语音部分;将所述语音部分切分为多个语音片段;对各所述语音片段进行语种识别,以确定各所述语音片段对应的语种;汇总各所述语音片段对应的语种确定所述待识别音频中的语种以及各语种对应的时间段。本方案实现了语音的自动化语种识别,可以实时在线的进行语种识别,相较于目前的人工识别方式,提升了效率,降低了成本,便于后续的语音处理,例如会议记录转写,智能电话机器人或酒店多国语言版本等智能设备等,使用方便,且语音转写可以实现更高的准确率。
-
公开(公告)号:CN116634096A
公开(公告)日:2023-08-22
申请号:CN202310382325.X
申请日:2023-04-11
申请人: 北京声智科技有限公司
发明人: 李良斌
IPC分类号: H04N7/18 , G06V20/52 , G06V20/40 , G06V20/17 , G10L25/78 , G08B21/02 , G10L15/26 , G10L25/18 , G10L25/30 , G01S5/18
摘要: 本发明提供一种景区安全监控方法、装置、电子设备和系统,涉及景区安全管理技术领域,该方法包括:获取景区部署的语音采集设备采集的语音信号;检测语音信号中是否包括安全预警信息;在语音信号中包括安全预警信息的情况下,基于语音采集设备的第一位置信息,确定安全预警信息对应的安全事件发生地的第二位置信息;基于第二位置信息生成安全告警信息并输出。本发明提供的技术方案可以通过对人群的语音信号进行采集和检测来及时发现聚集人群内部是否发生安全事件,以便及时采取有效的处理措施,实现了景区的安全监控。
-
公开(公告)号:CN116631386A
公开(公告)日:2023-08-22
申请号:CN202310245365.X
申请日:2023-03-14
申请人: 桂林理工大学
摘要: 本发明提供一种基于融合通道注意力机制的残差模块的声音事件定位与识别方法,该方法采用了SE残差块对网络的特征提取能力和空间信息的融合进行了改进,同时可以实现同时进行声音事件检测和声音事件定位,减少了算法复杂度和计算量,使用联合训练的方法优化了声音事件检测和声音事件定位任务的损失函数,提高了模型的泛化能力和稳定性。
-
公开(公告)号:CN110517673B
公开(公告)日:2023-08-18
申请号:CN201910651161.X
申请日:2019-07-18
申请人: 平安科技(深圳)有限公司
摘要: 本发明公开了一种语音识别方法、装置、计算机设备及存储介质,通过实时获取用户输入的语音信息;若从语音信息中检测到静音信息,则获取语音信息的第一识别结果;根据第一识别结果在后台预加载第一识别结果对应的功能;若在预定时间内未检测到新的语音信息,则执行预加载的所述第一识别结果对应的功能。不需要额外的识别模型来判断语音的静音信息,通过等待或者特地的指令来实现静音判断即可。并且在识别到静音信息之后,对当前获取到的语音信息进行预处理和预加载,若后续未检测到新的语音信息,则直接执行所述预加载的所述第一识别结果对应的功能,提高了整个语音识别的执行效率。
-
公开(公告)号:CN114842849B
公开(公告)日:2023-08-08
申请号:CN202210451120.8
申请日:2022-04-24
申请人: 马上消费金融股份有限公司
摘要: 本申请公开了一种语音对话检测方法及装置,用于解决现有的语音对话检测方法的检测准确率低的问题。所述方法包括:基于目标语音数据中的语音对话的对话相关信息及对话文本,对所述目标语音数据中的语音对话进行插抢话预检测,得到候选语音对话,其中,所述目标语音数据包括不同角色的说话者的语音对话,所述对话相关信息包括对话起止时间信息及说话人角色;基于预设情绪识别模型对所述候选语音对话进行情绪识别,得到情绪识别结果;基于所述情绪识别结果和所述候选语音对话的语音特征,确定所述候选语音对话是否存在插抢话行为。
-
公开(公告)号:CN111833885B
公开(公告)日:2023-08-01
申请号:CN202010649101.7
申请日:2020-07-08
申请人: 太原科技大学
IPC分类号: G10L17/02 , G10L17/04 , G10L17/08 , G10L25/24 , G10L25/30 , G10L25/33 , G10L25/51 , G10L25/78 , G06N3/0464 , G06N3/043 , G06N3/08
摘要: 本发明属于音源识别技术领域,具体涉及一种基于卷积模糊神经网络的音源识别方法,包括下列步骤:对原始音源数据的预处理;得到MFCC特征参数;形成特征映射输入到卷积层;进行降维处理;将池化层输出的二维数据变换为一个行特征向量,然后输入到模糊化层,计算各语言变量的隶属度函数值;进行归一化计算;将模糊量变换为精确值输出;对输出的精确值进行训练学习;利用交叉熵损失函数对输出结果进行判断。本发明在卷积神经网络与模糊神经网络相结合的基础之上,对音源进行辨识;本发明综合了卷积神经网络与模糊神经网络的优点,使得本发明有更好的识别效果。本发明用于对音源的识别。
-
公开(公告)号:CN116486797A
公开(公告)日:2023-07-25
申请号:CN202310532234.X
申请日:2023-05-11
申请人: 阿波罗智联(北京)科技有限公司
发明人: 周毅
IPC分类号: G10L15/20 , G10L15/22 , G10L21/0208 , G10L21/0216 , G10L25/78
摘要: 本公开提供了一种减少误唤醒的方法、装置、电子设备及介质,涉及音频处理技术领域,尤其涉及语音交互、音频降噪技术领域。具体实现方案包括:采集环境音频,并对采集的环境音频进行降噪。之后针对降噪后的环境音频中的每个音频切片,对该音频切片进行语音活动检测,得到该音频切片的能量值。再确定该音频切片的能量值是否低于指定阈值。若是,则将该音频切片替换为静音段,并向语音助手的唤醒引擎发送替换后的音频切片。从而实现了降低由噪声残余引起的语音助手的误唤醒。
-
公开(公告)号:CN110299153B
公开(公告)日:2023-07-25
申请号:CN201910195826.0
申请日:2019-03-15
申请人: 卡西欧计算机株式会社
发明人: 富田宽基
摘要: 本发明涉及声音区间检测装置、声音区间检测方法以及记录介质。声音区间检测装置具备:处理器;以及存储器,构成为通过执行该存储器中存储的命令,使得上述处理器执行以下的处理:从靶声音信号检测包括特定声音信号的特定声音区间,上述特定声音信号表示在比特定时间长的时间持续发出的同一子音的音素的状态,通过从上述靶声音信号至少除去检测出的上述特定声音区间,来从该靶声音信号检测包括语音信号的语音区间,上述语音信号表示由说话人发出的语音。
-
-
-
-
-
-
-
-
-