-
公开(公告)号:CN117153142A
公开(公告)日:2023-12-01
申请号:CN202311101067.X
申请日:2023-08-29
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
IPC: G10L13/02 , G10L13/047
Abstract: 本发明公开了一种语音信号合成方法、装置、电子设备及存储介质。该方法包括:对输入文本进行正则化处理;将输入文本输入至经过训练的多任务模型;通过声学模型,根据音素序列和韵律结构特征的拼接结果预测语音的声音成分;通过声码器基于声音成分合成语音信号。上述技术方案,通过多任务模型基于指令集将输入文本转换为对应的韵律结构特征和音素序列,最后通过声学模型和声码器将音素序列和韵律结构特征合成语音信号,避免了为每个任务单独构建多任务模型,从而降低了多任务模型的复杂度,增强了文本转音素的精度和质量,提高了语音信号合成的处理效率和准确性,有助于在多语言场景中更加准确地预测出语音信号合成中的发音信息。
-
公开(公告)号:CN117409762A
公开(公告)日:2024-01-16
申请号:CN202311267145.3
申请日:2023-09-27
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
IPC: G10L13/033 , G10L13/08 , G10L19/16
Abstract: 本发明公开了一种语音编辑及优化方法、装置、设备及存储介质,该方法包括:将原始音频对应的掩盖后音频和待合成文本输入至语音编辑模型,得到编辑后音频,编辑后音频为将掩盖后音频和待合成文本进行编辑合成后生成的音频;将编辑后音频和原始音频输入声音转换模型,得到转换后音频,转换后音频为基于原始音频对编辑后音频的音频特征进行转换后的音频,本发明将原始音频对应的掩盖后音频和待合成文本输入语音编辑模型,得到编辑后音频,完成了自定义角色名场景下的配音任务,提升了用户的沉浸感;将编辑后音频和原始音频输入声音转换模型,优化了编辑后音频与原始音频边界的过渡,且保留了声优原始录制状态,提升了声音编辑后语音的表现力。
-
公开(公告)号:CN117059071A
公开(公告)日:2023-11-14
申请号:CN202311139611.X
申请日:2023-09-05
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
Abstract: 本发明公开了一种语音识别系统、方法及介质。其中,所述系统包括用户模块,用于根据待识别语音数据确定声学特征频谱,并根据声学特征频谱,以及,基于语音识别模型确定待识别语音数据的隐私特征,并将隐私特征发送至云端模块;用户模块,用于根据隐私特征以及基于语音识别模型确定第一文本数据以及第一文本数据得分;云端模块,用于根据隐私特征以及基于语音识别模型确定第二文本数据以及第二文本数据得分,将第二文本数据、第二文本数据得分发送至用户模块;用户模块,还用于基于各文本数据以及各文本数据得分确定目标文本数据。通过执行本方案,可以实现在保护用户隐私的同时保证了语音识别的实时性和准确性,可以提升用户体验。
-
公开(公告)号:CN119478901A
公开(公告)日:2025-02-18
申请号:CN202411401853.6
申请日:2024-10-09
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
IPC: G06V20/59 , G06V40/16 , G06V10/44 , G06V10/764 , G06V10/82 , G06N3/0464
Abstract: 本发明公开了一种异常饮水行为检测方法、装置、电子设备和存储介质,涉及安全驾驶领域,该方法包括:通过关键点检测模型,获取各个视频帧的关键点位;若获取到饮水起始帧,将喉部点位加入关键点位,并获取喉部点位的移动轨迹;若获取到饮水结束帧,将喉部点位移出关键点位,并根据喉部点位的移动轨迹获取饮水行为频率;根据饮水行为频率确定是否存在异常饮水行为。本发明实施例的技术方案,不但实现了异常饮水行为的自动检测,确保了对驾驶安全和人身健康的有效监测,而且降低了关键点位的获取难度,避免了客观环境因素和用户行为习惯对检测结果的影响,提高了异常饮水行为的检测效率。
-
公开(公告)号:CN119168946A
公开(公告)日:2024-12-20
申请号:CN202411153515.5
申请日:2024-08-21
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
Abstract: 本发明公开了一种轮胎气压检测方法、装置、设备、介质及程序产品,涉及轮胎检测技术领域。该方法包括:获取目标轮胎的目标轮胎图像;对目标轮胎图像进行检测,获取辐条框架参考线、目标轮胎的胎身检测线,以及辐条框架参考线与目标轮胎的胎身检测线之间的最大距离;将辐条框架参考线向目标轮胎方向径向延伸最大距离,生成目标轮胎的胎身实际线;构建胎身检测线和胎身实际线之间的胎身形变区域,以及辐条框架参考线与胎身实际线之间的胎身原始区域;计算胎身形变区域和胎身原始区域之间的面积占比值,并根据面积占比值,确定目标轮胎的轮胎气压状态。本发明实施例的技术方案可以提高了轮胎气压状态检测的准确度、便捷性、高效性和智能化。
-
公开(公告)号:CN118770263A
公开(公告)日:2024-10-15
申请号:CN202410770643.8
申请日:2024-06-14
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
Abstract: 本发明涉及计算机技术领域,尤其涉及一种车辆控制方法、装置、设备及介质。其中,方法包括:在监测到唤醒指令之后,采集驾驶员的语音信号,并在采集语音信号的过程中,采集车内图像;确定与驾驶员对应的待控制部件的部件名称和操作名称;确定驾驶员的视线角度和头部姿态角度;确定驾驶员的视线目标名称;检测部件名称是否是模糊部件名称;若是,则根据视线目标名称对部件名称进行修正,根据操作名称以及修正后的部件名称,控制待控制部件执行与操作名称对应的操作。本发明实施例可以自动根据基于车内图像确定的视线目标名称,将不准确的部件名称修正为准确的部件名称,准确地确定待控制部件的部件名称,控制待控制部件执行对应的操作。
-
公开(公告)号:CN118609536A
公开(公告)日:2024-09-06
申请号:CN202410777954.7
申请日:2024-06-17
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
IPC: G10L13/02 , G10L13/04 , G10L13/047 , G10L13/08 , G10L25/03 , G10L25/27 , G06F18/23 , G06F18/2321 , G06F18/23213
Abstract: 本发明公开了一种音频生成方法、装置、设备和存储介质,涉及音频技术领域。该方法包括:响应接收到的文本信息,获取目标用户的历史音频信息,文本信息由目标用户通过目标终端发送;从历史音频信息中提取音色特征;对提取的音色特征进行聚类,以确定聚类中心的音色特征;根据聚类中心的音色特征确定目标用户的当前音色特征;将目标用户的当前音色特征和文本信息输入语音生成模型,以生成具有目标用户的当前音色特征的目标音频。通过本发明实施例的技术方案可以生成个性化语音,从而提高用户体验。
-
公开(公告)号:CN117351934A
公开(公告)日:2024-01-05
申请号:CN202311508652.1
申请日:2023-11-13
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
Abstract: 本发明公开了一种流式语音合成方法、装置、电子设备和存储介质。该方法包括:确定当前次处理周期使用的当前尺寸信息,并基于当前尺寸信息确定当前特征块,确定对当前特征块进行语音合成推理的当前推理消耗时间,基于当前尺寸信息确定当前特征块的当前时长信息,并基于当前推理消耗时间和当前时长信息确定语音合成模型的当前实时率,基于当前尺寸信息和当前实时率确定下一尺寸信息;当下一尺寸信息大于或等于当前剩余特征的帧数,则将当前剩余特征全部送入语音合成模块得到剩余语音音频,否则继续重复上述步骤。本申请解决了因固定分块尺寸而导致首帧时延与整体推理速度降低及合成效果无法兼顾的问题,提高了整体推理速度和合成效果。
-
公开(公告)号:CN117275451A
公开(公告)日:2023-12-22
申请号:CN202311267127.5
申请日:2023-09-27
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
Abstract: 本发明公开了一种合成方法、装置、设备及存储介质,该方法包括:从云侧合成服务和端侧合成服务中,选取对应云端网络状态的当前合成服务;在基于当前合成服务合成当前待合成文本的情况下,若云端网络状态发生变更,则确定当前合成服务对应的当前合成状态;确定合成当前待合成文本的目标合成服务;基于目标合成服务在当前合成状态的基础上继续合成当前待合成文本,得到对应的音频。本发明根据云端网络状态的变更,将当前合成服务切换为目标合成服务,目标合成服务在当前合成状态的基础上继续合成当前待合成文本,得到对应的音频,为用户带来任意网络场景下更加自然流畅的语音合成体验,避免了对当前合成状态的重新计算,在进一步解放算力的同时,提升了合成的质量。
-
公开(公告)号:CN119206818A
公开(公告)日:2024-12-27
申请号:CN202411228364.5
申请日:2024-09-03
Applicant: 中国第一汽车股份有限公司 , 一汽(南京)科技开发有限公司
Abstract: 本发明实施例公开了一种车辆座舱内乘员的年龄估计方法、装置、电子设备及存储介质。包括:获取车辆座舱内乘员的人脸面部图像,并标注对应的年龄标签;依据标注后的人脸面部图像构建不同年龄段的人脸面部图像数据集,并对年龄标签构建对应的散度特征;依据人脸检测算法及人脸关键点检测算法对人脸面部图像进行裁剪确定至少三个尺寸的人脸面部图像框,并依据至少三个尺寸的人脸面部图像框构建年龄估计预测模型;依据人脸面部图像数据集以及年龄标签对年龄估计预测模型进行训练,直至年龄估计预测模型的总损失函数收敛;依据训练得到的目标年龄估计预测模型对车辆座舱内乘员进行年龄估计。采用本方案,提高了车辆座舱内乘员年龄估计的准确性和效率。
-
-
-
-
-
-
-
-
-