-
公开(公告)号:CN119536609A
公开(公告)日:2025-02-28
申请号:CN202411654731.8
申请日:2024-11-19
Applicant: 科大讯飞股份有限公司
IPC: G06F3/04883 , G06V40/20 , G06V10/82 , G06V40/70 , G10L15/22
Abstract: 本申请公开了一种操作意图识别方法、交互方法及相关装置,涉及人机交互技术领域,操作意图识别方法包括:获取目标用户的多模态数据,多模态数据包括手部图像数据和语音数据;根据目标用户的多模态数据,获取手指端点三维坐标、手指指向向量弧度、目标操作以及操作置信度;根据操作置信度,确定目标用户是否有操作意图;若目标用户有操作意图,则根据手指端点三维坐标和手指指向向量弧度,确定目标操作对应的操作对象,以得到包含目标操作以及目标操作对应的操作对象的操作意图识别结果。本申请公开的操作意图识别方法能够较为准确地识别出操作意图,进而能够提升交互准确率,从而能够提升用户体验。
-
公开(公告)号:CN112506510B
公开(公告)日:2024-06-04
申请号:CN202011479287.2
申请日:2020-12-15
Applicant: 科大讯飞股份有限公司
IPC: G06F8/38 , G06T11/60 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0475 , G06N3/094 , G06N3/084
Abstract: 本申请公开了一种系统皮肤生成方法、装置、设备及存储介质,本申请获取到皮肤背景图以及能够提供图标模板信息的图标模板,进而分别提取皮肤背景图和图标模板的特征信息,基于二者各自的特征信息来生成系统皮肤,本申请生成的系统皮肤包含有与皮肤背景图风格适配的图标。由此可见,本申请在生成系统皮肤时,参考了皮肤背景图的特征信息以及图标模板的特征信息,其中皮肤背景图的特征信息能够提供皮肤背景图的风格特征,图标模板的特征信息能够提供图标的模板信息,如空间结构分布信息等,基于此生成的系统皮肤中的图标风格与皮肤背景图相适配,且图标的空间结构分布与图标模板一致。
-
公开(公告)号:CN117934547A
公开(公告)日:2024-04-26
申请号:CN202311868970.9
申请日:2023-12-28
Applicant: 科大讯飞股份有限公司
IPC: G06T7/246 , G06V10/75 , G06N3/045 , G06N3/0464 , G06N3/08
Abstract: 本申请公开了一种目标跟踪方法、目标跟踪装置、设备和介质,该方法包括:获取跟踪目标在历史视频帧中的历史跟踪位置信息;基于跟踪目标的历史跟踪位置信息进行运动预测,得到跟踪目标在当前视频帧的预测结果;其中,预测结果至少包括预测位置信息;至少基于跟踪目标在当前视频帧中的预测位置信息,确定跟踪目标在当前视频帧中的目标跟踪结果,能够提高跟踪效率。
-
公开(公告)号:CN117789292A
公开(公告)日:2024-03-29
申请号:CN202311718052.8
申请日:2023-12-13
Applicant: 科大讯飞股份有限公司
IPC: G06V40/20 , G06V20/40 , G06V10/42 , G06V10/44 , G06V10/62 , G06V10/764 , G06V10/80 , G06V10/82 , G06F40/30 , G06N3/0895 , G06N3/096
Abstract: 本发明涉及计算机技术领域,提供一种行为识别方法、训练方法、装置、电子设备和存储介质,其中行为识别方法包括:获取待识别视频,以及文本特征,所述文本特征是通过对比学习预训练大模型对预设的描述文本进行特征提取得到的;基于行为识别模型,对所述待识别视频中连续帧图像进行时序特征提取,并应用提取到的时序特征和所述文本特征,对所述待识别视频进行行为识别。本发明提供的行为识别方法、训练方法、装置、电子设备和存储介质,能够增强行为识别模型针对细粒度物品的特征表达能力,从而提高识别效果且使泛化性能更好。
-
公开(公告)号:CN117711067A
公开(公告)日:2024-03-15
申请号:CN202311789594.4
申请日:2023-12-22
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种行为识别方法、装置、设备及存储介质,本申请考虑到不同类型行为动作所需要时间信息是不同的,改进了现有单一的时序建模方式,同时配置了长时分支网络和短时分支网络,分别对拍摄的连续帧图像在时序维度上提取不同稀疏程度的图像特征,得到长时图像特征和短时图像特征,基于长时图像特征预测第一行为分类结果,基于短时图像特征预测第二行为分类结果,融合两个分类结果得到最终的行为分类结果。本申请方案能够自适应的对不同类型的行为动作进行长短时时序建模,并融合长时分支网络和短时分支网络的分类结果,改善了传统方案时序建模方式单一的弊端,能够适用于对多种不同类型行为动作的识别场景。
-
公开(公告)号:CN117593502A
公开(公告)日:2024-02-23
申请号:CN202311559240.0
申请日:2023-11-21
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种图像预处理方法、装置、电子设备和存储介质,所述方法包括:对待处理的原始图像进行图像分割,得到多个原始图块,并为各原始图块创建对应的线程;并行在各线程上对各原始图块进行预处理,得到对应的预处理图块;对各预处理图块进行合并,得到预处理图像。本发明提供的图像预处理方法、装置、电子设备和存储介质,对待处理的原始图像进行图像分割,得到多个原始图块,并为各原始图块创建对应的线程,从而可以并行在各线程上对各原始图块进行预处理,大幅度提高图像预处理的效率,进而能够高效率地实现推理过程中的预处理,降低推理的延迟并且提高吞吐。
-
公开(公告)号:CN117316158A
公开(公告)日:2023-12-29
申请号:CN202311599003.7
申请日:2023-11-28
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供了一种交互方法、装置、控制设备及存储介质,交互方法包括:获取目标用户的手部图像序列和语音序列;识别语音序列中的指令词,并获取指令词对应的时间;根据手部图像序列以及指令词对应的时间,确定目标用户发出指令词时的手部指向区域;根据目标用户发出指令词时的手部指向区域,确定交互设备;控制交互设备执行指令词对应的操作。本发明提供的交互方法为结合语音的指向交互方法,该交互方法有效利用了不同模态信息的互补性,其不但能够实现丰富的交互功能,而且具有较好的交互稳定性,用户体验较好。
-
公开(公告)号:CN112712571B
公开(公告)日:2023-12-01
申请号:CN202011566751.1
申请日:2020-12-25
Applicant: 科大讯飞股份有限公司
IPC: G06T11/00
Abstract: 本发明公开了一种基于视频的物体平面贴图方法、装置以及设备。本发明在用户参与交互的前提下不再要求复杂的操作以完成平面选择,而是通过第一阶段由视频物体平面检测技术结合用户简单的交互操作初步选择出候选平面区域,以及第二阶段根据候选平面区域在多帧图像中的图像特征判定出候选平面区域是否可用,从而实现待贴图平面的确定,本发明既可以极大简化用户交互流程的复杂度,又可以全面、可靠地获得待贴图平面区域的特征信息,并且利用图像自身信息进行植入可靠性判断,能够有效规避由于缺乏相关技术知识所带来的处理效果偏差。可见本发明在优化用户体验的同时,能够高效、便捷地确定出待贴图平面,进而极大提升图像植入
-
公开(公告)号:CN116301381A
公开(公告)日:2023-06-23
申请号:CN202310284388.1
申请日:2023-03-20
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供了一种交互方法及相关设备和系统,其中,交互方法包括:获取交互区域的多模态信息,多模态信息包括基于多个终端设备中的部分或全部终端设备获取的相对应的图像信息和语音信息;基于多模态信息中的图像信息确定交互区域中是否存在目标用户;若是,则基于多模态信息中的图像信息确定目标用户是否朝向多个终端设备中的一终端设备;若是,则将目标用户朝向的终端设备确定为交互设备;基于多模态信息中的语音信息,确定交互设备对应的控制指令,并向交互设备发送对应的控制指令。本发明提供的交互方法通过有效利用基于多个终端设备获取的多模态信息,使得语音交互不需要唤醒词,如此,整个交互过程更加自然高效。
-
公开(公告)号:CN115861747A
公开(公告)日:2023-03-28
申请号:CN202211457780.3
申请日:2022-11-21
Applicant: 科大讯飞股份有限公司
IPC: G06V10/80 , G06F40/289 , G06V10/764 , G06T3/40 , G06N3/0464 , G06N3/08
Abstract: 本发明提供一种图像生成方法、装置、电子设备及存储介质,其中方法包括:获取待绘制目标的描述文本,从所述描述文本中提取所述绘制目标的预设属性的关键词;基于所述关键词,生成所述预设属性的属性图像;以所述描述文本和所述属性图像为约束,生成所述待绘制目标的目标图像。本发明提供的方法、装置、电子设备及存储介质,以描述文本和属性图像为约束,生成待绘制目标的目标图像,目标图像不仅符合描述文本的限定,还符合属性图像的限定,由此,保证了生成的目标图像中目标的预设属性与描述文本中的关键词一致,目标图像在预设属性的呈现上是符合常识认知的,不会生成稀奇古怪的图像结果,提高了生成的目标图像的准确性和可靠性。
-
-
-
-
-
-
-
-
-