-
公开(公告)号:CN111667600A
公开(公告)日:2020-09-15
申请号:CN202010553287.6
申请日:2020-06-17
Applicant: 科大讯飞(苏州)科技有限公司
Abstract: 本申请提供了一种安检巡检方法、装置、巡检终端、存储介质及系统,安检巡检系统中的巡检服务器向巡检终端下发违禁品图像,巡检终端获取一安检对象图像,判断安检对象图像是否满足预设条件,若是,则将安检对象图像与巡检服务器下发的违禁品图像融合,获得包含有违禁品的安检对象的图像作为目标图像,获取安检人员对目标图像的反馈信息,并将反馈信息上传至巡检服务器,其中,预设条件包括:违禁品图像能够完全置于待判断图像中,且待判断图像中不包含违禁品。本申请提供的安检巡检方法极大地提高了安检巡检的效率和巡检结果的准确度,节省了人力成本和时间成本。
-
公开(公告)号:CN111401239A
公开(公告)日:2020-07-10
申请号:CN202010182741.1
申请日:2020-03-16
Applicant: 科大讯飞(苏州)科技有限公司
IPC: G06K9/00
Abstract: 本申请提供了一种视频分析方法、装置、系统、设备及存储介质,其中,视频分析方法包括:获取指定摄像机对其所监控的目标场景采集的图像帧,作为目标图像帧;利用预先构建的多个场景分别对应的视频分析规则,对目标图像帧进行事件识别,获得识别到的事件以及识别到的事件对应的概率,其中,任一场景对应的视频分析规则从该场景对应的样本图像中学习得到,一个场景对应的样本图像为该场景中发生对应的目标事件时,摄像机针对该场景采集的图像;根据识别到的事件以及识别到的事件对应的概率,确定目标场景中是否发生了所述目标场景对应的目标事件。本申请提供的视频分析方法可自动实现多个不同场景所对应目标事件的检测。
-
公开(公告)号:CN110691299A
公开(公告)日:2020-01-14
申请号:CN201910810790.2
申请日:2019-08-29
Applicant: 科大讯飞(苏州)科技有限公司
Abstract: 本申请实施例提供一种音频处理系统、方法、装置、设备及存储介质,该音频处理系统包括音频处理设备、设置在车体外部的麦克风阵列和设置在车体内部的扬声器阵列;麦克风阵列,用于拾取多路车外音频信号;音频处理设备,用于识别多路车外音频信号是否包含特定类型的音频信号;音频处理设备,还用于在识别出多路车外音频信号为特定类型的音频信号的情况下,将多路车外音频信号转换为多通道输出音频信号;扬声器阵列,用于播放多通道输出音频信号。本申请实施例能够提高车辆行驶的安全性。
-
公开(公告)号:CN110428007A
公开(公告)日:2019-11-08
申请号:CN201910708214.7
申请日:2019-08-01
Applicant: 科大讯飞(苏州)科技有限公司
Abstract: 本发明公开了一种X光图像目标检测方法、装置及设备,主要基于多分类多标签结构,通过获取X光图像中的待定框的多个候选标签,为待定框赋予多个标签,并基于该多个候选标签确定出所述待定框内目标的类别,也即意味着最终确定的待定框内目标的类别不限于一种或多种。本发明能够加强目标检测工具正则化,有效提升目标检测工具增益,进而提升目标识别率,经验证在具体实施时本发明能够改善目标检测工具的泛化能力,便于快速、准确地分类违禁品,辅助安检员工作的同时大大提高违禁品检出率,而且本发明的关注点聚焦于分类任务,与回归任务无关,对整个系统牵连影响较小,具备改进独立性,便于本领域技术人员实施、实现本发明创造。
-
公开(公告)号:CN119359850B
公开(公告)日:2025-05-02
申请号:CN202411932628.5
申请日:2024-12-26
Applicant: 科大讯飞(苏州)科技有限公司
IPC: G06T11/00 , G06T11/60 , G06F40/205
Abstract: 本发明涉及计算机视觉技术领域,提供一种图像生成方法、装置、电子设备和存储介质,方法包括:获取目标图像的描述文本;基于大型语言模型,对所述描述文本进行场景解析,得到与所述描述文本对应的场景图;基于多模态图像生成模型,应用所述描述文本和所述场景图,生成所述目标图像。本发明提供的图像生成方法、装置、电子设备和存储介质,通过借助大型语言模型的强大自然语言处理能力,对描述文本进行场景解析,得到与描述文本对应的场景图,并结合描述文本和场景图生成目标图像。同时参考到描述文本的文本信息,以及场景图表征的空间和语义信息,可以改善生成图像的质量和语义一致性,从而生成更加精确和合理的图像。
-
公开(公告)号:CN119826829A
公开(公告)日:2025-04-15
申请号:CN202411989480.9
申请日:2024-12-31
Applicant: 科大讯飞(苏州)科技有限公司
Abstract: 本申请公开了一种机器人定位及控制方法、装置、存储介质及设备,该方法包括:首先利用目标机器人上预先安装的IMU、轮速计和视觉传感器,分别同步获取目标机器人的IMU测量数据、轮速计测量数据和二维码定位数据,然后利用ESKF对目标机器人的IMU测量数据、轮速计测量数据和二维码定位数据进行融合处理,并根据处理结果,确定目标机器人的位姿结果;接着接收预设运动指令,并根据预设运动指令和目标机器人的位姿结果,控制目标机器人运动到目标终点位置。从而能够在全局一致性的多传感器融合处理下,充分利用各传感器的优势,弥补单一传感器的不足,实现了更加准确、可靠的实时定位和导航控制,进而可以提高对于目标机器人的运动控制效果。
-
公开(公告)号:CN119811415A
公开(公告)日:2025-04-11
申请号:CN202411973957.4
申请日:2024-12-30
Applicant: 科大讯飞(苏州)科技有限公司
IPC: G10L21/0272 , G10L25/03 , G10L25/27 , G10L25/48
Abstract: 本发明涉及声音处理技术领域,提供一种声音信号分离方法、装置、电子设备和存储介质,其中方法包括:基于各通道信号的短时能量和所述各通道信号之间的互相关系数,确定环境声的短时能量,各通道的环境声具有相同的短时能量;基于所述环境声的短时能量和所述各通道信号的短时能量,确定所述各通道的环境声掩膜;基于所述各通道的环境声掩膜和所述各通道信号,确定所述各通道的环境声和相干声。本发明利用每个通道的环境声掩膜,可以有效地将环境声和相干声分离出来,提高了分离效果,可适用于多种立体声场景。
-
公开(公告)号:CN119810266A
公开(公告)日:2025-04-11
申请号:CN202510301466.3
申请日:2025-03-14
Applicant: 科大讯飞(苏州)科技有限公司
IPC: G06T11/60 , G06N3/0455 , G06N3/08
Abstract: 本发明提供一种图像生成方法、装置、设备和存储介质,涉及图像处理技术领域,该方法包括:将当前文本和上一文本对应的上一图像输入图像生成模型中的自回归模块中,得到所述自回归模块输出的当前token序列;将所述上一图像输入所述图像生成模型中的图像特征适配模块中,得到所述图像特征适配模块输出的图像特征;基于所述当前token序列和所述图像特征,确定所述当前文本对应的当前图像。本发明可以提高前后生成的图像的一致性。
-
公开(公告)号:CN119762639A
公开(公告)日:2025-04-04
申请号:CN202411993562.0
申请日:2024-12-31
Applicant: 科大讯飞(苏州)科技有限公司
IPC: G06T13/40 , G06V40/10 , G06V40/20 , G06V20/40 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/0475 , G06N3/08
Abstract: 本发明提供一种虚拟人像视频特征预测模型训练方法及虚拟人像视频生成方法,涉及计算机视觉技术领域,该初始视频特征预测模型经过训练得到的虚拟人像视频特征预测模型,可以学习到提取细粒度动作特征的能力,实现对复杂动作的精细控制,增强后续生成的虚拟人像视频中虚拟人物在细粒度动作合成中的表现力,降低虚拟人像产生扭曲、模糊或失真的可能性。
-
公开(公告)号:CN119762477A
公开(公告)日:2025-04-04
申请号:CN202411991069.5
申请日:2024-12-31
Applicant: 科大讯飞(苏州)科技有限公司
IPC: G06T7/00 , G06V10/764 , G06V10/774 , G06V10/82 , G06N3/092
Abstract: 本发明提供一种图像美学质量评价方法及系统,该方法包括:将待评价的目标图像输入至图像美学评价模型中,得到由所述图像美学评价模型输出的所述目标图像在不同美学评价维度对应的美学目标评价值,其中,所述图像美学评价模型是由标记有美学样本评价标签的样本图像,对大语言模型进行训练得到的;所述美学样本评价标签是基于所述美学评价维度构建得到的;根据各个所述美学目标评价值,得到所述目标图像的美学评价结果。本发明可得到更为准确的图像美学评估结果。
-
-
-
-
-
-
-
-
-