-
公开(公告)号:CN118675546A
公开(公告)日:2024-09-20
申请号:CN202410567478.6
申请日:2024-05-08
申请人: 浙江华创视讯科技有限公司
摘要: 本申请公开了一种音频活动预测方法以及电子设备、相关系统和存储介质。该方法包括:基于对话音频中的目标语音段进行特征提取,得到目标语音段的音频特征;基于音频特征生成表征目标语音段上下文语义的第一表示,并基于音频特征生成表征目标对象的第二表示;其中,目标对象为目标语音段的说话对象;基于第一表示和第二表示,预测得到目标语音段之后的音频活动信息;其中,音频活动信息包括语音内容、各个说话对象的语音状态中至少一者,语音状态为静默、说话中任一者。上述方案,能够在复杂对话场景中,提高音频活动智能交互的流畅度。
-
公开(公告)号:CN118505898A
公开(公告)日:2024-08-16
申请号:CN202410564524.7
申请日:2024-05-08
申请人: 浙江华创视讯科技有限公司
摘要: 本申请公开了一种场景构建方法、场景构建装置以及计算机存储介质,该场景构建方法包括:对待构建场景进行捕捉,提取待构建场景中的静态元素与动态元素;将静态元素转换为体素,基于体素构建静态场景;基于动态元素生成动态点云;将动态点云融合进静态场景中,构建最终的三维场景。通过上述方式,本申请通过分别使用体素表示静态场景和使用动态点云表示动态元素并将两者融合的方法,提高了场景表示的全面性与灵活性,能够为用户呈现更加复杂且准确的混合三维场景,提供了更加丰富且沉浸式的用户体验。
-
公开(公告)号:CN118351495A
公开(公告)日:2024-07-16
申请号:CN202410445077.3
申请日:2024-04-12
申请人: 浙江华创视讯科技有限公司
IPC分类号: G06V20/54 , G06V20/70 , G06F18/25 , G06V10/44 , G06V10/42 , G06V10/80 , G06V10/764 , G06F40/30 , G06V10/82 , G06N3/0464 , G06N3/045 , G06N3/084 , G06N3/048
摘要: 本发明公开了一种车辆损伤检测方法、设备及存储介质,其中,方法包括:获取待检测图像中目标车辆的全局特征,以及获取目标车辆的损伤情况所对应的文本描述;利用文本描述从全局特征中确定目标车辆的损伤情况所对应的局部特征;将局部特征与文本特征进行融合,以确定融合特征;根据融合特征对目标车辆的损伤情况进行定位,并确定目标车辆的损伤检测结果;能有效提高车辆损伤检测的准确性和适用性,适应不同类型的损伤检测需求。
-
公开(公告)号:CN117896552B
公开(公告)日:2024-07-12
申请号:CN202410290195.1
申请日:2024-03-14
申请人: 浙江华创视讯科技有限公司
IPC分类号: H04N21/2343 , H04N21/4402 , H04N7/15
摘要: 本申请公开了视频会议的处理方法、视频会议系统以及相关装置。应用于接收端,该方法包括:接收网络端发送的关键参考帧和具有第二分辨率的第二视频流;其中,具有第二分辨率的第二视频流是网络端响应于网络质量低于预设质量,对发送端发送的具有第一分辨率的第一视频流进行分辨率降低得到;关键参考帧是网络端利用第一视频流中每一视频帧的清晰度指数、细节保留度和/或内容重要性指数确定得到;根据关键参考帧对第二视频流进行超分重建,得到具有第三分辨率的第三视频流并显示。通过上述方式,提升视频会议效果。
-
公开(公告)号:CN118138795A
公开(公告)日:2024-06-04
申请号:CN202410109278.6
申请日:2024-01-25
申请人: 浙江华创视讯科技有限公司
IPC分类号: H04N21/234 , H04N21/44 , H04N21/81
摘要: 本申请公开了一种图像显示方法、设备及存储介质,该图像显示方法包括:接收光场图像采集设备发送的光场图像;基于光场图像构建得到多个视角的场景图像,以及,基于光场图像构建得到目标场景的场景深度图;利用场景深度图确定每个场景图像中的背景区域;对每个场景图像中的背景区域进行融合处理得到背景对象图像,显示背景对象图像。可以在没有独立的背景视频流的情况下,通过光场信息实时考虑背景和前景的动态变化,确保在动态背景中实现持续准确的背景图像的透明化显示。
-
公开(公告)号:CN118138709A
公开(公告)日:2024-06-04
申请号:CN202410117358.6
申请日:2024-01-26
申请人: 浙江华创视讯科技有限公司
IPC分类号: H04N7/15 , H04N7/01 , H04L12/18 , H04L65/403
摘要: 本申请公开了一种视频会议的帧率调整方法、设备及存储介质,该视频会议的帧率调整方法包括:对当前视频会议进行会议类型识别,基于识别到的会议类型为当前视频会议分配对应的初始帧率;获取当前视频会议的帧率影响因子,帧率影响因子用于指示影响当前视频会议帧率的因素;基于每个帧率影响因子,计算得到当前视频会议的帧率调整指标;利用帧率调整指标,对当前视频会议的初始帧率进行调整。在实现帧率的动态调整的前提下,结合会议类型和帧率影响因子可以保证调整后的帧率的准确性和适应性。
-
公开(公告)号:CN118071619A
公开(公告)日:2024-05-24
申请号:CN202410154636.5
申请日:2024-02-02
申请人: 浙江华创视讯科技有限公司
摘要: 本申请公开了一种高质量图像的生成方法、设备以及存储介质,该高质量图像的生成方法包括:对获取到的待合成图像进行图像分割处理,得到待合成图像中的各图像区域;基于待合成图像中各图像区域的区域优先级,对各图像区域对应的当前融合权重进行调整,得到各图像区域的目标融合权重,待合成图像中各图像区域的目标融合权重与各图像区域的区域优先级成正相关;基于目标融合权重对各待合成图像中互相对应的图像区域进行图像融合处理,得到高质量图像。上述方案,能够提高图像合成后的图像质量。
-
公开(公告)号:CN117956110A
公开(公告)日:2024-04-30
申请号:CN202311818903.6
申请日:2023-12-26
申请人: 浙江华创视讯科技有限公司
IPC分类号: H04N7/14 , H04N13/279
摘要: 本申请涉及一种视频成像方法、装置、计算机设备以及存储介质。所述方法包括:获取历史通话视频,以及半透半反镜的历史调节参数;根据历史通话视频确定历史位姿信息,根据历史位姿信息、历史调节参数和实时用户的实时位姿信息确定半透半反镜的目标调节参数;通过视频通话设备的调节模块,基于目标调节参数调节半透半反镜,并基于调节后的半透半反镜和显示屏,对实时用户的对话用户进行平等对视视频成像。上述方法,能够实现根据视频对话用户的位姿信息自动化调整视频通话设备中半透半反镜的参数,提高半透半反镜的参数调节准确性和效率,提高用户的视频通话体验。
-
公开(公告)号:CN117935847A
公开(公告)日:2024-04-26
申请号:CN202311724186.0
申请日:2023-12-14
申请人: 浙江华创视讯科技有限公司
IPC分类号: G10L25/30 , G10L25/06 , G06F18/213 , G06F18/22 , G06F18/24 , G06F18/23 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08
摘要: 本申请公开了一种声音相似性图的构建方法、设备及存储介质,该声音相似性图的构建方法包括:对音频数据进行场景识别,得到音频数据对应的场景标签;采用与场景标签匹配的权重分配策略,为音频数据中的每个声音分配权重,以及提取音频数据中每个声音对应的声音特征;基于每个声音的权重对每个声音的声音特征分别进行加权计算,得到每个声音对应的加权特征;利用每个声音对应的加权特征,计算每个声音之间的相似性评分;将每个声音作为节点,并基于每个声音之间的相似性评分确定边,以构建声音相似性图。可以对不同场景灵活调整不同的权重分配策略,从而能够实时适用和识别不断变化的声音场景,提高声音相似性图的边计算的准确性。
-
公开(公告)号:CN117896546A
公开(公告)日:2024-04-16
申请号:CN202410290199.X
申请日:2024-03-14
申请人: 浙江华创视讯科技有限公司
IPC分类号: H04N21/2187 , H04N21/2343 , H04N21/24 , H04N21/262 , G06V40/16
摘要: 本发明公开了一种数据传输方法、系统、电子设备及存储介质,其中,方法包括:获取待传输数据,待传输数据中包含有面部关键点数据;获取当前网络状态,以及获取待传输数据中每一个面部关键点数据的优先级别;利用优先级别对每一个面部关键点数据设定对应的冗余级别,并利用冗余级别对待传输数据进行编码和增量冗余,得到编码数据;根据当前网络状态、优先级别和冗余级别对编码数据进行传输;即本申请能有效对需要进行数据传输的关键点数据进行编码,进而依据关键点数据的优先级别对编码数据进行传输,提升数据传输的质量。
-
-
-
-
-
-
-
-
-