-
公开(公告)号:CN119494148A
公开(公告)日:2025-02-21
申请号:CN202411935291.3
申请日:2024-12-25
Applicant: 西安邮电大学
IPC: G06F30/13 , G06V20/00 , G06V10/778 , G06T3/067
Abstract: 本发明公开了一种用于房间布局估计的透视图C2P转换和布局生成方法。包括:获取目标室内场景图像;将目标室内场景图像输入深度学习模型,输出预测的完整深度图、全局平面可见性置信度图、墙面类别和平面语义标签;对平面进行分类,定义均匀分布在透视图像上的锚点,对于主导平面,计算其对应分割区域的形心坐标,指定给平面的标签对应于最接近该形心的锚点的索引从而得到一个粗略的布局分割掩模。从完整的深度图和平面可见性置信度中生成平面深度参数。利用C2P转换技术生成平面深度图,通过顺序平面深度图集成准确地估计房间的平面布局。本发明使得C2P变换能灵活地应用于透视图像,为平面深度重建提供了强大的技术支持。
-
公开(公告)号:CN118521601B
公开(公告)日:2025-01-24
申请号:CN202410971204.3
申请日:2024-07-19
Applicant: 西安邮电大学
IPC: G06T7/11 , G06N3/0455 , G06N3/09 , G06T17/00 , G06T5/30
Abstract: 本公开的实施例提供了基于角点深度预测的室内场景3D布局估计方法和装置,应用于室内场景的三维布局技术领域。所述方法包括获取目标室内场景图像;将目标室内场景图像输入深度学习模型,输出预测的角点热力图、角点深度值和嵌入向量;根据角点热力图生成角点坐标;对嵌入向量进行聚类得到粗略分割图,并使用粗略分割图的每个平面区域进行膨胀和腐蚀操作,得到目标区域;根据所述角点坐标与所述目标区域确定目标角点;根据所述目标角点的角点深度值进行平面拟合,得到每个平面对应的目标深度图;对目标深度图进行深度图相交计算,得到布局深度图。在不受因裁剪导致位置变动的影响下,得到更为准确的室内布局深度图。
-
公开(公告)号:CN118840262A
公开(公告)日:2024-10-25
申请号:CN202410797761.8
申请日:2024-06-20
Applicant: 西安邮电大学
IPC: G06T3/4053 , G06T3/4046 , G06T7/40 , G06N3/0455 , G06F17/16
Abstract: 本发明公开了基于空间松弛Transformer的图像超分辨率重建方法、装置及介质。该方法包括:输入低分辨率图像;提取浅层特征;提取多尺度深层特征;补充多尺度纹理特征;将前一个多尺度纹理补充块的输出与第(n‑2)个STB的输出作为输入,输入到下一个多尺度纹理补充块中;重复以上操作直到第一个STB块的输出被复用;将最后一个多尺度纹理补充块的输出输入到重建模块中;输出最终的超分辨率重建图像。该方法采用了基于空间松弛Transformer的多尺度纹理补充块,向深层次的语义特征图中补充纹理,同时增加了跨窗口信息交互,有效消除了重建图像中的栅格效应,进而实现了更高质量的图像超分辨率重建。
-
公开(公告)号:CN117333388A
公开(公告)日:2024-01-02
申请号:CN202311277529.3
申请日:2023-09-28
Applicant: 西安邮电大学
IPC: G06T5/00 , G06T5/50 , G06T7/13 , G06V40/16 , G06V10/26 , G06V10/44 , G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/084
Abstract: 本发明公开了一种多先验信息的遮挡人脸图像修复方法,检测真实人脸图像的canny边缘作为边缘修复网络的标签,利用FAN算法检测真实人脸的关键点作为关键点检测网络的标签;将遮挡人脸的灰度图和遮挡掩码以及canny边缘作为边缘修复网络的输入,进行训练,从遮挡人脸图像中得到修复后的人脸边缘;将遮挡人脸和遮挡掩码以及人脸关键点作为关键点检测的输入,进行训练,从遮挡人脸图像中得到检测到的关键点;利用修复得到的边缘和检测得到关键点作为先验信息,并将二者和遮挡人脸共同输入到人脸图像修复网络中,进行训练,得到修复完成的人脸图像,解决了现有技术中修复后的人脸图像细节丢失和语义不合理的问题。
-
公开(公告)号:CN117115534A
公开(公告)日:2023-11-24
申请号:CN202311076887.8
申请日:2023-08-24
Applicant: 西安邮电大学
IPC: G06V10/764 , G06V10/77 , G06V10/82 , G06V10/80 , G06F40/211 , G06F40/30 , G06F40/289 , G06N3/045 , G06N3/0442 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于图文融合的多模态情感分析方法及系统,包括:引入STN并进行图像特征提取,获取图像特征向量;使用Bi‑LSTM模型对文本向量进行序列建模,捕捉句子中单词的语义信息和上下文信息,并且将不同位置的单词信息结合起来,提取更具表达能力和区分度的文本特征;同时确定文本关键词对应的图像关键特征,以及图像关键特征对应的文本关键词,基于图像特征表示向量和文本特征表示向量进行模态融合。本发明分别在图像和文本特征提取中加入了空间变换网络模型STN和Bi‑LSTM模型,准确提取多模态数据的特征。同时本发明结合文本表示向量对图像中的关键特征映射进行定位,利用多模态数据之间的交互信息,提供更好的鲁棒性和泛化能力。
-
公开(公告)号:CN117113223A
公开(公告)日:2023-11-24
申请号:CN202311074292.9
申请日:2023-08-24
Applicant: 西安邮电大学
IPC: G06F18/2415 , G06F18/25 , G06F18/213 , G06V40/16 , G06V10/80 , G06V10/764 , G06V10/82 , G10L15/16 , G10L15/02 , G10L15/26 , G06F40/289 , G06N3/0442 , G06N3/084 , G06N3/047 , G06N3/045
Abstract: 本发明公开一种基于多模态特征融合的情感分析方法及系统,包括:通过Bi‑GRU捕获文本模态、语音模态和图像模态各自之间的上下文关系,同时基于跨模态注意力机制将文本模态、语音模态和图像模态进行两两结合,获取文本‑图像、文本‑语音和图像‑语音模态之间的交互情感表征,通过正则项的多头注意力机制对文本模态、语音模态和图像模态进行联合情感表征,获取三种模态的交互情感表征,最后将单模态、双模态和三模态情感特征级联进行最后的情感分类。本发明解决现有的多模态情感分析算法中因利用上下文信息建模而导致的特征信息不够丰富的问题,也解决了使用单头注意力机制进行特征学习时的信息受限问题和多头注意力机制存在的特征信息冗余问题。
-
公开(公告)号:CN117095222A
公开(公告)日:2023-11-21
申请号:CN202311076911.8
申请日:2023-08-24
Applicant: 西安邮电大学
IPC: G06V10/764 , G06V10/77 , G06V10/774 , G06V10/82 , G06N3/045 , G06N3/048 , G06N3/0985
Abstract: 本发明公开了一种基于坐标注意力和BDC度量的小样本图像分类方法、系统、装置及介质,包括:采集图像并对所采集的图像进行划分,得到训练集、验证集和测试集;构建深度模型框架;基于训练集对深度模型进行训练,当训练次数达到最大训练次数阈值,深度模型在验证集上的性能达到预设的要求或不再显著提升时,停止训练,获取最优化的深度模型;基于最优化的深度模型和元学习N‑way K‑shot的方式对测试集进行分类预测,评估分类准确率。本发明通过引入空间信息和位置信息的坐标注意力,同时结合利用图像边缘分布和联合分布之间差异的BDC度量方式能帮助模型更好地完成小样本图像分类任务,可以有效提高分类精度。
-
公开(公告)号:CN114866773B
公开(公告)日:2023-02-28
申请号:CN202210497536.3
申请日:2022-05-09
Applicant: 西安邮电大学
IPC: H04N19/147 , H04N19/124 , H04N19/186 , H04N19/136
Abstract: 一种消除时域抖动效应的量化参数级联方法,由确定帧运动区域、确定帧运动区域空域能量扩散因子、确定视频运动区域时域能量扩散因子、确定帧运动区域的基本单元、确定视频运动区域纹理复杂度、确定帧运动区域像素的平均背景亮度、确定视频运动区域运动速度、确定时域抖动效应临界感知阈值、确定视频帧的量化参数步骤组成。由于本发明采用了所述的步骤,解决了现有技术没有考虑视频中运动物体的边界变化对时域抖动效应感知影响的技术问题,解决了现有技术部适用于最新视频编码标准H.266/VVC的技术问题。本发明具有消除时域抖动效应有效、编码感知率失真性能好等优点,可用于视频编码、通信技术领域。
-
公开(公告)号:CN110298791B
公开(公告)日:2022-10-28
申请号:CN201910610927.X
申请日:2019-07-08
Applicant: 西安邮电大学
Abstract: 本公开是一种车牌图像的超分辨率重建方法和装置,涉及图像处理领域,应用于终端。该方法包括:首先通过第一卷积层对待处理的低分辨率车牌图像进行浅层特征提取;其次,通过依次串联的N个相同的残差采样块和第二卷积层进行深度特征提取,残差采样块内构建的不同分支充分利用了特征的尺度和深度信息;最后,通过重建模块对特征提取模块得到的多个深层特征图进行逐级倍数放大,根据多个高分辨率特征图得到重建的目标高分辨率车牌图像。本公开通过对低分辨率车牌图像进行超分辨率重建处理,解决了提取的特征信息丢失的问题,使重建的车牌避免字符模糊,字符粘连,信息不丰富等情况,提高了车牌图像的辨识度。
-
公开(公告)号:CN114866773A
公开(公告)日:2022-08-05
申请号:CN202210497536.3
申请日:2022-05-09
Applicant: 西安邮电大学
IPC: H04N19/147 , H04N19/124 , H04N19/186 , H04N19/136
Abstract: 一种消除时域抖动效应的量化参数级联方法,由确定帧运动区域、确定帧运动区域空域能量扩散因子、确定视频运动区域时域能量扩散因子、确定帧运动区域的基本单元、确定视频运动区域纹理复杂度、确定帧运动区域像素的平均背景亮度、确定视频运动区域运动速度、确定时域抖动效应临界感知阈值、确定视频帧的量化参数步骤组成。由于本发明采用了所述的步骤,解决了现有技术没有考虑视频中运动物体的边界变化对时域抖动效应感知影响的技术问题,解决了现有技术部适用于最新视频编码标准H.266/VVC的技术问题。本发明具有消除时域抖动效应有效、编码感知率失真性能好等优点,可用于视频编码、通信技术领域。
-
-
-
-
-
-
-
-
-