基于池化正交融合的面部色素斑分类方法及装置

    公开(公告)号:CN118334733B

    公开(公告)日:2024-09-24

    申请号:CN202410757576.6

    申请日:2024-06-13

    摘要: 本发明公开了一种基于池化正交融合的面部色素斑分类方法及装置,涉及图像识别领域,包括:构建面部色素斑分类模型并训练,得到经训练的面部色素斑分类模型,面部色素斑分类模型中,利用深度骨干网络对色素斑图像进行特征提取,得到特征映射,池化正交融合模块中,先验平均池化分支用于提取特征映射中的空间全局信息,获得具有空间稳定性的先验池化特征,后验可学习池化分支借助可学习权重挖掘特征映射中的空间分布信息,获得空间敏感性的后验可学习池化特征,利用正交融合模块对先验池化特征和后验可学习池化特征进行正交融合,得到正交融合特征并输入到第一全连接层和Softmax函数层,输出预测类别概率。本发明解决散射分布斑点分类难的问题。

    一种基于语义偏好挖掘的行人再辨识方法

    公开(公告)号:CN118196840B

    公开(公告)日:2024-08-09

    申请号:CN202410610290.5

    申请日:2024-05-16

    申请人: 华侨大学

    摘要: 本发明公开了一种基于语义偏好挖掘的行人再辨识方法,涉及人工智能、机器视觉领域,包括:利用预训练的语义分割模型将行人图像处理为语义分割图,将语义分割图空间划分为若干部件语义块,计算不同语义在语义分割图与部件语义块中的比例,根据不同语义的比例对部件语义块分组进行语义对齐,获得各部件语义块分组对应的部件序号;基于部件序号对部件特征分组,利用自注意网络将各部件特征组投影到公共嵌入空间并进行偏好挖掘,继而利用偏好信息对各部件特征组进行自适应聚合,增强行人再辨识准确性。

    一种基于3D-Gradient引导的屏幕内容视频编码码率控制方法

    公开(公告)号:CN113949872B

    公开(公告)日:2024-06-25

    申请号:CN202111320458.1

    申请日:2021-11-09

    申请人: 华侨大学

    IPC分类号: H04N19/147 H04N19/70

    摘要: 本发明涉及一种基于3D‑Gradient引导的屏幕内容视频编码码率控制方法,属于视频编码领域。本方法采用3D‑Gradient滤波器同时提取屏幕内容视频序列空域和时域的边缘结构特征以及运动信息,将屏幕内容中空域和时域特征进行融合,获取最终的像素级复杂度因子。通过像素级复杂度因子计算CTU级复杂度因子CF进行CTU级的目标比特分配。利用当前编码帧的参考帧以及重建帧的相似度结合目标比特进行率失真模型的构建,实现目标比特,引导码率控制模型的生成。本发明提出的屏幕内容视频编码码率控制方法能够提高码率控制精度,明显改善重建视频序列的率失真性能,在一定程度上降低视频编码时间复杂度。

    一种基于前景感知动态部件学习的行人再辨识方法

    公开(公告)号:CN117456560B

    公开(公告)日:2024-03-29

    申请号:CN202311775203.3

    申请日:2023-12-22

    申请人: 华侨大学

    摘要: 本发明公开了一种基于前景感知动态部件学习的行人再辨识方法,涉及人工智能、机器视觉领域,包括:将浅层特征映射解码为前景能量图,利用交叉熵优化前景能量图,使其趋于真实前景标签,再将前景能量图空间划分为若干部件能量块,用各个部件能量块代表相应的浅层特征映射块的当前重要性;结合当前重要性和历史重要性对各浅层特征映射块进行综合重要性计算并排序,根据综合重要性排序优先选择高综合重要性的浅层特征映射块参与行人再辨识模型训练,从而减少来自背景区域的低综合重要性的浅层特征映射块参与行人再辨识模型训练的机会,达到抑制背景区域对行人辨识的干扰,提升行人再辨识准确性,可广泛应用于智慧城市场景中的城市安防系统。

    无监督车辆再辨识模型训练方法、车辆再辨识方法及装置

    公开(公告)号:CN117437604A

    公开(公告)日:2024-01-23

    申请号:CN202311767741.8

    申请日:2023-12-21

    申请人: 华侨大学

    摘要: 本发明公开了一种无监督车辆再辨识模型训练方法、车辆再辨识方法及装置,涉及人工智能、机器视觉领域,通过基于深度学习的车辆再辨识模型从无标签车辆图像中学习的车辆图像特征,采用聚类算法进行聚类得到伪标签,并随机选择部分特征数据进行随机放缩,获得随机增强特征;基于随机增强特征计算后验类别概率,并利用随机增强特征与车辆图像特征之间的相似度组合后验类别概率,获得随机增强后验类别概率,利用随机增强后验类别概率赋权伪标签中的非峰值类别概率分布,实现伪标签的动态平滑,得到动态平滑伪标签,改善无监督车辆再辨识训练效果,解决当前无监督车辆再辨识依赖身份伪标签而聚类产生的身份伪标签质量不佳的问题。

    基于人眼恰可察觉失真的屏幕内容视频编码感知码率控制方法及装置

    公开(公告)号:CN115567712A

    公开(公告)日:2023-01-03

    申请号:CN202211156529.3

    申请日:2022-09-22

    申请人: 华侨大学

    摘要: 本发明公开了一种基于人眼恰可察觉失真的屏幕内容视频编码感知码率控制方法及装置,属于视频编码领域。首先获取屏幕内容视频,对屏幕内容视频进行边缘建模,得到二维边缘模型,提取二维边缘模型的边缘特征,并计算得到二维边缘模型的边缘模型参数;基于边缘模型参数获取亮度自适应阈值、对比度掩蔽效应阈值、边缘非结构失真敏感度阈值以及结构失真敏感度阈值,构建屏幕内容视频的像素域JND模型,确定JND因子;然后利用边缘特征和JND因子指导感知复杂度分类和目标比特分配;最后通过参考视频帧和重建视频帧的边缘相似度构建在JND约束条件下的感知码率控制模型。该方法能够提高屏幕内容视频的码率控制精度,明显改善屏幕内容视频的编码率失真性能。

    一种基于Gabor特征和灰度共生矩阵的视频帧内编码快速算法

    公开(公告)号:CN111526371B

    公开(公告)日:2022-12-06

    申请号:CN202010366824.6

    申请日:2020-04-30

    申请人: 华侨大学

    摘要: 本发明涉及一种基于Gabor特征和灰度共生矩阵的视频帧内编码快速算法,属于视频编码领域。本方法利用灰度共生矩阵非零值个数与编码树单元(Coding Tree Unit,CTU)分割深度的关系,设定阈值预判编码模块的分割深度,得到不同阈值对应的深度区间;然后对深度范围内的编码单元(Coding Unit,CU)利用Gabor特征进行分类,并进行平坦块和复杂块的划分,最后根据不同的CU类型选择不同编码方案。本发明一种基于Gabor特征和灰度共生矩阵的屏幕内容视频帧内编码快速算法能够减少编码器计算开销,在保持视频质量基本不变的情况下,减少编码时间。

    一种联合空频域的感知HEVC多描述视频编码

    公开(公告)号:CN115426492A

    公开(公告)日:2022-12-02

    申请号:CN202211007565.3

    申请日:2022-08-22

    申请人: 华侨大学

    摘要: 本发明涉及一种基于联合空频域的感知多描述视频编码方法,属于视频编码领域。本方法将帧内、帧间预测的预测误差像素块通过空域多相下采样,分为两组残差像素,使用一种适应多描述编码描述的DCT/DST变换方式,将两组残差像素块变换生成两组系数,结合其他编码信息经过熵编码生成两个描述,同时结合人类视觉系统,引入视觉显著性模型进行冗余率失真优化,通过HEVC编码器进行编码。将两个描述的码流打包分别通过不同的信道传输到解码端。解码端根据网络情况,分别进行频域反变换以及空域差错隐藏的边缘重建,以及像素交织的中心重建。本发明提出的一种基于联合空频域的感知多描述视频编码方法能够提高HEVC的差错恢复能力,获得更好的感知视频质量。

    一种基于时空感知特征的屏幕内容视频码率控制方法

    公开(公告)号:CN110944199A

    公开(公告)日:2020-03-31

    申请号:CN201911191751.5

    申请日:2019-11-28

    申请人: 华侨大学

    摘要: 本发明涉及一种基于时空感知特征的屏幕内容视频码率控制方法,充分考虑人眼视觉对屏幕内容视频的感知特性,利用最新的屏幕图像质量评价方法GFM建立空域感知模型,通过所得到的感知特性进行感知编码。本发明还充分利用了屏幕内容视频的内容特性以及帧间相关性,对不同的时域相邻块进行分析判断,分为三种不同类型的块,并利用这种特性进行合理的码率分配。本发明结合时空感知特性对屏幕内容视频进行合理的码率控制,降低误码率,节省码率开销的同时,提高视频的质量,具有重要的意义和价值。