-
公开(公告)号:CN115909040A
公开(公告)日:2023-04-04
申请号:CN202211618499.3
申请日:2022-12-15
申请人: 西安邮电大学 , 中国船舶重工集团公司第七0五研究所
IPC分类号: G06V20/05 , G06F18/213 , G06F18/25 , G06N3/0442 , G06N3/0464 , G06N3/048 , G06N3/08 , G06F123/02
摘要: 本发明属于水声目标识别技术领域,具体涉及一种基于自适应多特征融合模型的水声目标识别方法。包括以下步骤:首先将原始的音频数据切割得到数据集;对每条音频提取MFCC特征并生成二维时频谱图;然后进行多维特征提取:包括深度时序特征提取、深度空间特征提取和深度频域特征提取;最后进行自适应多特征融合模型构建:将三种网络提取的特征进行初步拼接作为输入;将拼接后的特征集输入到通道注意力层进行自适应加权;将加权信息输入到全连接层进行水声目标识别。本方法通过多维度特征提取网络结构,挖掘了时域音频信号和频域的二维频谱图所对应的时频互补信息;通过自适应加权为后续的目标识别提供更具有判别性的特征,有效的提高了识别精度。
-
公开(公告)号:CN114897783B
公开(公告)日:2024-10-22
申请号:CN202210387487.8
申请日:2022-04-14
申请人: 西安邮电大学
IPC分类号: G06T7/00
摘要: 本发明为一种基于对抗神经网络RTGAN的内窥镜下曝光帧修复方法,其克服了现有技术中存在的内窥镜手术过程中因环境密闭、可见光激光刀发出的光束功率高而导致的手术视频画面严重过曝的问题,本发明能够通过基于对抗神经网络RTGAN的内窥镜下曝光帧修复方法,完全消除激光手术视频流中存在的过曝现象。本发明包括以下步骤:(1)获取黑白光下的内镜视频流并拆帧;(2)对每帧图像进行预处理,包括删除曝光帧和修复高光点;(3)利用彩色视频帧训练对抗神经网络RTGAN;(4)利用训练好的对抗神经网络RTGAN对预处理后的帧进行实时着色;(5)将RTGAN还原后的彩色视频帧合成正常的手术视频流。
-
公开(公告)号:CN117197623A
公开(公告)日:2023-12-08
申请号:CN202311068357.9
申请日:2023-08-23
申请人: 西安邮电大学
摘要: 一种基于纹理感知和细粒度特征补偿的肠镜病灶检测方法,将获取的肠镜图像输入主干网络提取多级特征,从特征C2挖掘纹理特征,并与特征Cm中的语义特征整合,通过Cm对背景信息进行抑制,捕获细粒度纹理特征并进行增强;将特征C3~Cm分别卷积,之后分别与增强后的特征融合,得到m‑2个融合特征;将特征Cm经注意力机制和空间金字塔池化得到特征;对所得特征进行自上至下和自下至上的多尺度特征融合,并在其中至少一个融合过程中引入金字塔可拆分注意力模块,以平衡跳跃链接中的通道信息,捕获通道之间的相互作用,基于多尺度融合结果,实现高精度的目标检测。
-
公开(公告)号:CN114679524A
公开(公告)日:2022-06-28
申请号:CN202210288001.5
申请日:2022-03-23
申请人: 西安邮电大学
摘要: 本发明提供了一种快速检测和修复内窥镜下高能量可见光的方法,属于数字图像处理技术领域,该方法包括以下步骤:1:获取内窥镜摄像头采集到的视频流,并且利用帧间差法对采集到的视频流进行异常帧(曝光帧、暗帧)检测;2:利用光流法对检测出的曝光帧进行修复;3:采用均值提亮法对暗帧进行提亮;4:将修复的曝光帧、提亮的暗帧和正常帧合成视频流输出得到清晰正常的手术视频影像。通过本发明提供的检测和修复内窥镜下高能量可见光的方法可快速检测曝光帧并修复,修复率高达98.88%,通过均值提亮算法有效增强图像亮度,且处理速度控制在30ms以内,使得医生能够在手术中观看到清晰稳定(无闪烁、无突变)的视频流。
-
公开(公告)号:CN113269058A
公开(公告)日:2021-08-17
申请号:CN202110503058.8
申请日:2021-05-08
申请人: 西安邮电大学
摘要: 本发明提出了一种基于GAN模型和PLV网络的运动想象识别方法,其步骤包括:(1)对原始信号进行预处理,包括重采样和分段处理;(2)对每段脑电信号带通滤波,并进行滑动窗处理;(3)针对每个滑动窗下脑电信号计算PLV,然后求各个滑动窗信号的PLV的平均值,将该平均值作为该状态下的PLV;(4)计算静息态下的PLV;(5)计算差分PLV特征矩阵;(6)以带有标签样本的PLV特征矩阵为约束条件,利用GAN将生成器获取的随机生成矩阵转化为生成PLV特征矢量,实现样本特征集的扩充;(7)基于扩充后的样本特征集训练分类器,构建基于GAN模型和PLV网络的运动想象识别模型,输出识别结果。本发明通过GAN实现样本特征集的有效扩充,克服样本特征集不足造成的训练过拟合现象,提高了运动想象的状态识别能力,为进一步的研究奠定基础。
-
公开(公告)号:CN111079481A
公开(公告)日:2020-04-28
申请号:CN201811227200.5
申请日:2018-10-22
申请人: 西安邮电大学
摘要: 本发明公开了一种基于二维骨架信息的攻击性行为识别方法,本发明属于计算机视觉和模式识别领域,所述方法针对双人交互式攻击性行为识别;使用OpenPose获取二维骨架信息序列,并对二维骨架信息序列的人体自遮挡和缺失值进行数据预处理;然后对人体行为进行特征向量构建,单人行为特征向量包括帧间人体重心位移变化和运动时骨骼旋转角变化,交互特征向量包括帧间人体重心位移变化、帧间人体旋转角变化和交互“安全距离”;采用w-lightGBM算法对单人行为特征向量进行多分类,采用lightGBM算法对交互特征向量进行二分类并将结果显示;通过监控人体行为变化实现对视频中的目标的攻击性行为的识别,为社会治安及公共安全提供有效的视频分析方法。
-
公开(公告)号:CN110110813A
公开(公告)日:2019-08-09
申请号:CN201910418510.3
申请日:2019-05-20
申请人: 西安邮电大学
摘要: 本发明公开了一种基于双通道卷积网络的极化SAR图像分类方法,包括对待分类极化SAR图像进行滤波;从滤波后的极化SAR图像每个像素点的相干矩阵中提取多维特征向量;对极化SAR图像进行空间加权;根据真实的地物标记,对极化SAR数据的每个地物类别分别随机选取训练样本与测试样本;构建多层卷积网络模型;将训练样本输入到多层卷积网络模型中,获得训练好的卷积网络模型;将测试样本输入到训练好的卷积网络模型中,获得测试样本中每个像素的分类结果;将分类结果与真实的地物标记进行对比,计算正确率;输出分类结果。本发明对地物具有更高的分类正确率,并且同质区域更完整,区域一致性和分类性能更好,适用于对极化SAR图像的进行地物分类和目标识别。
-
公开(公告)号:CN110087097A
公开(公告)日:2019-08-02
申请号:CN201910485965.7
申请日:2019-06-05
申请人: 西安邮电大学
IPC分类号: H04N21/234 , H04N21/44
摘要: 本发明属于人工智能和计算机视觉技术领域,具体涉及一种基于内窥镜的自动去除无效视频剪辑方法。本发明将待剪辑内窥镜手术视频进行拆帧,在视频帧中提取关键帧;将所述关键帧输入本发明改进的密集连接卷积神经网络中;通过所述网络对所述手术视频关键帧进行预判,再通过自修复模块,进一步获得精准结果;根据上述结果和原视频时间点的对比,剪辑并合成视频,得到医生期待的有效内窥镜手术视频段。与其他剪辑方法相比,密集连接卷积神经网络加入自修复模块在准确度上进一步提升,将达到60%分类变化的视频帧进行自修复,更精确手术视频的剪辑时间,使得有效视频与无效视频分割更精确。
-
公开(公告)号:CN112990013B
公开(公告)日:2024-01-12
申请号:CN202110275575.4
申请日:2021-03-15
申请人: 西安邮电大学
IPC分类号: G06V20/40 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/0442 , G06N3/08
摘要: 本发明公开一种基于稠密边界时空网络的时序行为检测方法,包括如下步骤:步骤1:采用two‑stream提取待检测视频的时空特征,得到时空特征图;步骤2:采用LSTM学习视频信息中的长期依赖关系,增强上下文信息特征,获得多尺度的稠密边界特征;步骤3:采用稠密边界提取模块,得到尽可能多的候选提议时序片段,并预测所述候选提议时序片段的置信度得分;步骤4:采用Soft‑NMS方法对提取出的若干候选片段进行筛选,去除视频中的冗余片段。本发明方法能够提高特征的多样性,保证时序定位的精度,生成
-
公开(公告)号:CN117115906A
公开(公告)日:2023-11-24
申请号:CN202311004570.3
申请日:2023-08-10
申请人: 西安邮电大学
IPC分类号: G06V40/20 , G06V10/764 , G06V10/62 , G06V10/80 , G06V10/82 , G06N3/0464 , G06T7/269 , G06V20/40
摘要: 本发明属于计算机视觉和模式识别技术领域,具体涉及一种基于上下文聚合和边界生成的时序行为检测方法。本发明设计了一个多路径时序上下文特征聚合模块,用于有效的聚合长期和短期时间上下文信息,从而增强行为事件的上下文表示。其次,为了生成精确的行为边界,本发明设计了一个多分支时间边界检测器,利用两个边界检测器之间的互补关系优化预测结果。此外,为了准确预测密集分布提名的置信度,本发明设计了一个提名关系感知模块,利用全局相关性进行提名关系建模,增强了提名上下文的表达性和鲁棒性。本发明对于持续时间长和持续时间短的视频都能有效检测,可实现对行为边界的高召回率和高精度捕捉。
-
-
-
-
-
-
-
-
-