-
公开(公告)号:CN114187917B
公开(公告)日:2025-01-03
申请号:CN202111530309.8
申请日:2021-12-14
Applicant: 科大讯飞股份有限公司
IPC: G10L17/02 , G10L21/0216 , G10L21/0272 , G06V40/10
Abstract: 本发明提供一种话者分离方法、装置、电子设备和存储介质,所述方法包括:对视频帧进行人员检测,得到视频帧中人员的人员位置;对视频帧对应的音频段进行声源定位,得到声源位置;基于人员位置和声源位置之间的相对位置关系,对音频段进行话者分离。本发明提供的话者分离方法、装置、电子设备和存储介质,可以避免环境噪声和不同角色话者声纹特征差异程度的影响,进而可以基于人员位置和声源位置之间的相对位置关系,准确对音频段进行话者分离。
-
公开(公告)号:CN117789292A
公开(公告)日:2024-03-29
申请号:CN202311718052.8
申请日:2023-12-13
Applicant: 科大讯飞股份有限公司
IPC: G06V40/20 , G06V20/40 , G06V10/42 , G06V10/44 , G06V10/62 , G06V10/764 , G06V10/80 , G06V10/82 , G06F40/30 , G06N3/0895 , G06N3/096
Abstract: 本发明涉及计算机技术领域,提供一种行为识别方法、训练方法、装置、电子设备和存储介质,其中行为识别方法包括:获取待识别视频,以及文本特征,所述文本特征是通过对比学习预训练大模型对预设的描述文本进行特征提取得到的;基于行为识别模型,对所述待识别视频中连续帧图像进行时序特征提取,并应用提取到的时序特征和所述文本特征,对所述待识别视频进行行为识别。本发明提供的行为识别方法、训练方法、装置、电子设备和存储介质,能够增强行为识别模型针对细粒度物品的特征表达能力,从而提高识别效果且使泛化性能更好。
-
公开(公告)号:CN116597047A
公开(公告)日:2023-08-15
申请号:CN202310200510.2
申请日:2023-02-28
Applicant: 科大讯飞股份有限公司 , 广州市讯飞樽鸿信息技术有限公司
IPC: G06T11/60 , G06T11/00 , G06N3/0464 , G06N3/08
Abstract: 本申请公开了一种图片生成方法、装置、设备及可读存储介质。本方案中,首先,获取用户的图片生成请求,图片生成请求中包括用户的至少一个个性化信息;再基于用户的至少一个个性化信息,生成包括与用户的至少一个个性化信息对应的领域元素信息的文本描述信息;最后,基于文本描述信息生成融合有领域元素信息个性化图片,并将个性化图片提供给用户。在本方案中,用户只需输入一些个性化信息,就可以为用户生成包含专业的领域元素信息的文本描述,并生成融合有专业的领域元素信息的个性化图片,该图片生成技术对于专业性较差的用户同样适用,降低了对用户专业性的依赖。
-
公开(公告)号:CN115861747A
公开(公告)日:2023-03-28
申请号:CN202211457780.3
申请日:2022-11-21
Applicant: 科大讯飞股份有限公司
IPC: G06V10/80 , G06F40/289 , G06V10/764 , G06T3/40 , G06N3/0464 , G06N3/08
Abstract: 本发明提供一种图像生成方法、装置、电子设备及存储介质,其中方法包括:获取待绘制目标的描述文本,从所述描述文本中提取所述绘制目标的预设属性的关键词;基于所述关键词,生成所述预设属性的属性图像;以所述描述文本和所述属性图像为约束,生成所述待绘制目标的目标图像。本发明提供的方法、装置、电子设备及存储介质,以描述文本和属性图像为约束,生成待绘制目标的目标图像,目标图像不仅符合描述文本的限定,还符合属性图像的限定,由此,保证了生成的目标图像中目标的预设属性与描述文本中的关键词一致,目标图像在预设属性的呈现上是符合常识认知的,不会生成稀奇古怪的图像结果,提高了生成的目标图像的准确性和可靠性。
-
公开(公告)号:CN113920560A
公开(公告)日:2022-01-11
申请号:CN202111092312.6
申请日:2021-09-17
Applicant: 科大讯飞股份有限公司
Abstract: 本发明公开一种多模态说话人身份识别方法、装置和设备,该方法包括:获取会话场景的视频数据和音频数据;对所述视频数据进行人脸检测和唇形检测,得到参会人的子视频数据和所述子视频数据中的人脸框数据和唇形框序列;根据所述参会人的所述唇形框序列和所述音频数据,确定所有参会人中的说话人和所述说话人对应的音频数据;根据所述说话人的所述人脸框数据提取所述说话人的视觉特征,并根据所述说话人对应的音频数据提取所述说话人的音频特征;根据所述视觉特征和所述音频特征对所述说话人进行身份识别。本申请能够在复杂多样的会话场景下提高说话人身份识别的准确性。
-
公开(公告)号:CN111612755A
公开(公告)日:2020-09-01
申请号:CN202010414237.X
申请日:2020-05-15
Applicant: 科大讯飞股份有限公司
IPC: G06T7/00
Abstract: 本发明实施例提供一种肺部病灶分析方法、装置、电子设备和存储介质,其中方法包括:将待分析的胸部影像输入至病灶定位模型,得到病灶定位模型输出的胸部影像的肺部病灶定位结果;将基于胸部影像以及胸部影像的肺部病灶定位结果确定的融合影像,或,将胸部影像以及胸部影像的肺部病灶定位结果输入至病灶分析模型,得到病灶分析模型输出的胸部影像的肺部病灶分析结果。本发明实施例提供的方法、装置、电子设备和存储介质,保证肺部病灶分析结果能够全面覆盖包括细小病灶和非典型病灶在内的所有肺部病灶,保证了肺部病灶分析的可靠性和准确性。
-
公开(公告)号:CN111598853A
公开(公告)日:2020-08-28
申请号:CN202010367707.1
申请日:2020-04-30
Applicant: 科大讯飞股份有限公司
Abstract: 本发明公开了一种针对肺炎的CT影像评分方法、装置及设备。主要构思是利用计算机图像处理技术对CT影像采用两种模式进行打分,一种是由识别出的病灶与肺叶区域打分,另一种是基于CT数值提取的图像特征,由模型预测得分。本发明并不单单依赖唯一种打分结果,而是综合两种模式给出的判断,得到相互取长补短、更为精确可靠的评分结果。本发明可以迅速地对患者肺炎程度进行高效精准的评分,尤其针对新冠肺炎这里新发疾病,本发明可以有效规避数据偏差、分布不均等缺陷,使得最终评分结果更为合理、可靠,并进而能够协助医生高效地采取对应的分级诊疗手段。
-
公开(公告)号:CN119206676A
公开(公告)日:2024-12-27
申请号:CN202411392557.4
申请日:2024-10-08
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种疲劳检测方法、装置、电子设备和存储介质,其中方法包括:获取人脸图像,对所述人脸图像的眼部区域进行眼部关键点检测,得到所述眼部区域的关键点位置信息,并基于所述关键点位置信息,确定眼部开合度;对所述人脸图像进行头姿估计,得到所述人脸图像的头姿信息,并基于所述头姿信息,对所述眼部开合度进行校正,得到校正开合度;基于所述校正开合度,确定所述人脸图像的疲劳检测结果。本发明提供的方法、装置、电子设备和存储介质,头姿信息在眼部开合度校正中的应用,消除了头姿变化对于眼部开合度的影响,能够有效提升基于关键点检测得到的眼部开合度的可靠性,进而保证疲劳检测的可靠性和准确性。
-
公开(公告)号:CN118968558A
公开(公告)日:2024-11-15
申请号:CN202411120920.7
申请日:2024-08-15
Applicant: 科大讯飞股份有限公司
IPC: G06V40/10 , G06V10/764 , G06V10/766 , G06V10/42 , G06V10/44 , G06V10/80 , G06V10/82 , G06N3/098
Abstract: 本申请公开了一种学习专注度评估方法及相关装置,涉及计算机视觉技术领域,包括:利用预测模型分别确定学习者的待处理的学习视频中每帧原始图像中学习者与物品的交互关系,并根据各帧原始图像中学习者与物品的交互关系,确定学习者的学习专注度评估结果。预测模型是通过将目标检测分支和注视区域热图回归预测分支整合到一个统一的网络框架中,并通过对目标检测分支和注视区域热图回归预测分支进行联合训练得到的。由于这种联合训练不仅简化了预测模型的训练过程,还显著提升了预测模型的推理效率和效果,提升了学习者与物品的交互关系的确定效率和确定精度,因此,保证了学习专注度评估的效率和专注度评估结果的准确性。
-
公开(公告)号:CN111161268B
公开(公告)日:2024-04-30
申请号:CN201911275373.9
申请日:2019-12-12
Applicant: 科大讯飞股份有限公司
IPC: G06T7/10 , G06T7/00 , G06N3/0464
Abstract: 本申请提供了一种图像处理方法、装置、电子设备及计算机存储介质,首先获取目标用户的胸片图像;接着,将所述胸片图像输入训练好的分割模型,根据所述训练好的分割模型的输出确定原始肋骨图像;最后,对所述原始肋骨图像进行分割处理,得到目标肋骨图像,所述分割处理用于获取无粘连的肋骨图像。可以将深度学习的神经网络模型与后续处理结合,自动分割出每一根肋骨都独立的目标肋骨图像,提升图像处理的准确性和效率,也为医生提供了便利。
-
-
-
-
-
-
-
-
-