-
公开(公告)号:CN118646929B
公开(公告)日:2024-10-29
申请号:CN202411104706.2
申请日:2024-08-13
申请人: 北斗数字信息产业发展(辽宁)有限公司
IPC分类号: H04N21/44 , H04N21/439 , H04N21/466 , G10L25/18 , G10L25/30 , G06N3/0442 , G06N3/0455 , G06N3/0464 , G06N3/08 , G06V10/80 , G06V10/82
摘要: 本发明的实施例提供了基于音视频特征融合的视频质量评价方法、装置和设备。所述方法包括获取视频段的关键帧,输入到Transformer编码器中,得到视觉特征;从音频段获取GAF频谱图,提取对应的频谱信息,输入卷积模块,输出音频特征;将视觉特征输入改进的Transformer编码器,得到视觉语义特征;将音频特征输入ResNet18卷积神经网络,得到音频语义特征;将视觉语义特征和音频语义特征进行融合后输入全连接层,输出质量评价分数,进行质量评价。以此方式,可以解决现有技术中对音频和视频特征特征提取不准确,忽略交互作用,仅进行简单融合获取整体质量评价分数,无法获取较好的性能的技术问题。
-
公开(公告)号:CN118297950B
公开(公告)日:2024-10-01
申请号:CN202410725802.2
申请日:2024-06-06
申请人: 北斗数字信息产业发展(辽宁)有限公司
IPC分类号: G06T7/00 , G06T7/593 , G06N3/0464 , G06N3/084
摘要: 本发明的实施例提供了基于立体视觉感知机制的立体图像质量评价方法和装置。所述方法包括获取目标立体图像的右子图和左子图;对右子图进行语义增强,得到增强右子图;将左子图与增强右子图做差,得到视差图;对左子图、增强右子图和视差图进行分块处理后输入特征学习网络,输出左子图、增强右子图、双目的视觉特征;对上述视觉特征进行拼接,输入第三全连接模块,得到质量映射结果;将该结果输入第四全连接模块,输出预测质量分数,将质量分数的平均值作为质量评价结果。以此方式,可以有效融入语义信息;综合考虑单目视觉特征和双目视觉特征,更符合人眼的立体视觉感知机制,能够提升方法的预测准确度。
-
公开(公告)号:CN118154486B
公开(公告)日:2024-07-09
申请号:CN202410574405.X
申请日:2024-05-10
申请人: 北斗数字信息产业发展(辽宁)有限公司
IPC分类号: G06T5/90 , G06T5/10 , G06T7/90 , G06N3/0464
摘要: 本发明的实施例提供了基于频域分解的双流水下图像增强方法、装置和设备。所述方法包括获取第一图像,进行离散余弦变换,得到低频子图像和高频子图像;对第一图像的低频子图像进行多颜色空间转换,利用Unet网络模型对多维颜色信息进行图像增强,得到第一图像的增强低频图像;将第一图像的高频子图像输入间断性跳链接网络模型,输出第一图像的增强高频图像;将第一图像的增强低频图像和第一图像的增强高频图像相加,得到第一图像的图像增强结果。以此方式,可以实现水下图像增强,减少图像细节信息损失,同时实现颜色和纹理细节增强,为开展与实施水下工作提供技术支撑。
-
公开(公告)号:CN118823489A
公开(公告)日:2024-10-22
申请号:CN202411305374.4
申请日:2024-09-19
申请人: 北斗数字信息产业发展(辽宁)有限公司
IPC分类号: G06V10/764 , G06V10/80 , G06V10/82 , G06V10/44 , G06V10/46 , G06V10/40 , G06V10/42 , G06V10/52 , G06V20/70 , G06N3/0464 , G06N3/045 , G06N3/0499
摘要: 本发明的实施例提供了基于多尺度注意力机制的图像分类方法、装置和设备。所述方法包括获取目标图像,所述目标图像包括语义信息;将所述目标图像输入语义特征提取模块,得到图像语义特征;以及,将所述目标图像输入显著性特征提取模块,得到图像显著性特征;将所述图像语义特征与图像显著性特征进行加权融合,得到显著性加权语义特征;将所述显著性加权语义特征输入全连接层,输出目标图像的分类结果。以此方式,可以有效保持良好的层次关系,整合多尺度局部信息和全局信息,解决了传统方法无法在合理计算复杂度条件下保持良好层次关系和上下文关系的矛盾,同时提高了模型的学习能力。
-
公开(公告)号:CN118154486A
公开(公告)日:2024-06-07
申请号:CN202410574405.X
申请日:2024-05-10
申请人: 北斗数字信息产业发展(辽宁)有限公司
IPC分类号: G06T5/90 , G06T5/10 , G06T7/90 , G06N3/0464
摘要: 本发明的实施例提供了基于频域分解的双流水下图像增强方法、装置和设备。所述方法包括获取第一图像,进行离散余弦变换,得到低频子图像和高频子图像;对第一图像的低频子图像进行多颜色空间转换,利用Unet网络模型对多维颜色信息进行图像增强,得到第一图像的增强低频图像;将第一图像的高频子图像输入间断性跳链接网络模型,输出第一图像的增强高频图像;将第一图像的增强低频图像和第一图像的增强高频图像相加,得到第一图像的图像增强结果。以此方式,可以实现水下图像增强,减少图像细节信息损失,同时实现颜色和纹理细节增强,为开展与实施水下工作提供技术支撑。
-
公开(公告)号:CN118646929A
公开(公告)日:2024-09-13
申请号:CN202411104706.2
申请日:2024-08-13
申请人: 北斗数字信息产业发展(辽宁)有限公司
IPC分类号: H04N21/44 , H04N21/439 , H04N21/466 , G10L25/18 , G10L25/30 , G06N3/0442 , G06N3/0455 , G06N3/0464 , G06N3/08 , G06V10/80 , G06V10/82
摘要: 本发明的实施例提供了基于音视频特征融合的视频质量评价方法、装置和设备。所述方法包括获取视频段的关键帧,输入到Transformer编码器中,得到视觉特征;从音频段获取GAF频谱图,提取对应的频谱信息,输入卷积模块,输出音频特征;将视觉特征输入改进的Transformer编码器,得到视觉语义特征;将音频特征输入ResNet18卷积神经网络,得到音频语义特征;将视觉语义特征和音频语义特征进行融合后输入全连接层,输出质量评价分数,进行质量评价。以此方式,可以解决现有技术中对音频和视频特征特征提取不准确,忽略交互作用,仅进行简单融合获取整体质量评价分数,无法获取较好的性能的技术问题。
-
公开(公告)号:CN118297950A
公开(公告)日:2024-07-05
申请号:CN202410725802.2
申请日:2024-06-06
申请人: 北斗数字信息产业发展(辽宁)有限公司
IPC分类号: G06T7/00 , G06T7/593 , G06N3/0464 , G06N3/084
摘要: 本发明的实施例提供了基于立体视觉感知机制的立体图像质量评价方法和装置。所述方法包括获取目标立体图像的右子图和左子图;对右子图进行语义增强,得到增强右子图;将左子图与增强右子图做差,得到视差图;对左子图、增强右子图和视差图进行分块处理后输入特征学习网络,输出左子图、增强右子图、双目的视觉特征;对上述视觉特征进行拼接,输入第三全连接模块,得到质量映射结果;将该结果输入第四全连接模块,输出预测质量分数,将质量分数的平均值作为质量评价结果。以此方式,可以有效融入语义信息;综合考虑单目视觉特征和双目视觉特征,更符合人眼的立体视觉感知机制,能够提升方法的预测准确度。
-
-
-
-
-
-