-
公开(公告)号:CN116193122A
公开(公告)日:2023-05-30
申请号:CN202310189604.4
申请日:2023-03-02
申请人: 杭州电子科技大学 , 杭州电子科技大学丽水研究院
IPC分类号: H04N19/147 , H04N19/124 , H04N19/91 , H04N19/172 , H04N19/30 , H04N19/50
摘要: 本发明公开了一种多层级多模块协同视频感知编码优化方法及装置,通过原始视频进行编码失真预测、帧级编码失真预测及帧级量化参数的推导;对原始视频的图像进行帧内/帧间预测,并将得到的预测图像与原始图像进行差计算,得到残差图像,通过预测的编码失真,对残差图像进行残差滤波,滤波后的残差图像基于残差块变换后,再根据预测的帧级编码失真和帧级量化参数,进行感知量化;基于感知量化参数进行率失真优化,优化帧内/帧间预测;构建感知质量增强网络,用于优化帧内/帧间预测;基于优化的帧内/帧间预测,对原始视频的图像进行预测、差计算、残差滤波、变换、感知量化后,进行熵编码。
-
公开(公告)号:CN116248883A
公开(公告)日:2023-06-09
申请号:CN202310156672.0
申请日:2023-02-17
申请人: 杭州电子科技大学 , 杭州电子科技大学丽水研究院
IPC分类号: H04N19/154 , H04N19/124 , H04N19/186 , H04N19/42 , H04N19/91 , G06N3/045 , G06N3/08
摘要: 本发明属于视频感知编码优化领域,公开了一种多层级多颗粒度感知编码失真预测方法,包括如下步骤:步骤1:视觉感知效应和感知编码失真映射分析:构建各源视频的多层级恰可感知量化参数数据集和恰可感知编码失真数据集;步骤2:多层级多颗粒度感知编码失真预测:基于视觉感知机制,采用统计分析方法定性分析各视觉感知特征与恰可感知编码失真的映射关系。本发明解决了不同感知效应对于压缩视频的感知作用并不完全一致的问题、视频编码机制和视觉感知机制的联合约束增加感知编码失真理论分析难度,传统理论建模不能推导出理想的JNCD阈值模型的问题,满足了多颗粒感知编码优化的需求。
-
公开(公告)号:CN118337639A
公开(公告)日:2024-07-12
申请号:CN202410592683.8
申请日:2024-05-14
申请人: 杭州电子科技大学
IPC分类号: H04L41/14 , H04L43/0894
摘要: 本发明公开了一种端边云协同视频群智感知多目标性能评价方法,基于码率度量码流数据传输代价,基于码率和相应存储架构度量码流数据存储代价,基于硬件资源和能量资源的消耗度量复杂度代价;将存储、传输和复杂度代价基于消耗的成本进行同质化度量,得到统一量纲度量的参量;计算和存储静态硬件成本折算为每一路摄像头视频所需计算和存储硬件代价;计算和存储动态能耗成本折算为每一路摄像头视频编码分析所需电力消耗代价;传输存储代价根据宽带网络费用折算为每路视频传输所需成本,所有成本基于货币进行度量;基于失真和无失真情况下的多目标性能,构建机器视觉算法性能损失,通过性能损失与所述参量构建代价函数,以不同参量下性能的优劣为判据进行多目标性能评价。
-
公开(公告)号:CN118334663A
公开(公告)日:2024-07-12
申请号:CN202410760236.9
申请日:2024-06-13
申请人: 杭州宇泛智能科技股份有限公司 , 杭州电子科技大学
IPC分类号: G06V20/70 , G06V10/774 , G06V10/94 , G06V10/764 , G06V10/40 , G06V10/26 , G06V10/75 , G06F16/51
摘要: 本申请实施例提供一种一站式人工智能图像处理模型构建方法及装置,方法包括:创建图像标注任务,确定对应的图像处理模型的结构,并根据所述标准化标签存储的图像数据进行图像处理模型的训练,得到所述图像处理模型;根据与图像处理模型对应的模型定义规范确定目标部署硬件相应的前处理接口、推理接口以及后处理接口,通过推理接口将经过前处理接口处理后的标准化标签存储的图像数据输入至图像处理模型,并通过后处理接口处理图像处理模型的模型输出,根据模型输出确定对应的模型精度,在模型精度符合预设精度条件时将图像处理模型部署至目标部署硬件;本申请能够实现数据标注、模型训练、模型转换和模型部署等全流程的一体化集成,提高开发效率,降低开发成本,确保训练精度与部署精度的高度一致性。
-
公开(公告)号:CN118158427A
公开(公告)日:2024-06-07
申请号:CN202410446677.1
申请日:2024-04-15
申请人: 杭州电子科技大学 , 浙江省经济信息中心(浙江省价格研究所)
IPC分类号: H04N19/42 , H04N19/174 , H04N19/182
摘要: 本发明属于视频编码领域,公开了一种面向AV1调色板编码模式的高效k‑means聚类硬件架构及方法,本发明提出三条k‑means电路并行的架构,k‑means电路包括calc_indices和calc_centroids两个模块。calc_indices模块根据像素和簇中心的距离,来计算像素的索引,其中距离采用曼哈顿距离,索引值为像素和簇中心距离最小的簇编号。calc_centroids模块执行簇中心的更新,将索引值相同的像素累加并求平均值,作为下一次迭代的簇中心存储在C‑RAM中,本发明将不同块、同一块的k的聚类计算过程进行交织,从而提高硬件的利用率并减少取数次数。
-
公开(公告)号:CN117670679A
公开(公告)日:2024-03-08
申请号:CN202311680992.2
申请日:2023-12-08
申请人: 杭州电子科技大学
IPC分类号: G06T3/4053 , G06N3/0455 , G06N3/0464
摘要: 本发明公开了一种基于全局分布学习的真实图像超分辨率重建方法。首先获取数据集,进行训练集和测试集的划分,然后对数据集中的图像进行格式转换,裁剪和数据增强操作;然后构建基于全局分布学习的真实图像超分辨率重建网络,包括全局分布学习模块、采样点计算模块和图像重建模块;通过低分辨率图像学习出图像的真实场景分布函数,再估计出采样点坐标,从而进行重新采样,构建出超分辨率图像;最后通过预处理后的数据集训练构建的真实图像超分辨率重建网络。相比现有的方法,只能重建整数倍比例因子的超分辨率图像,该发明能够重建出任意比例因子的超分辨率图像,且能获得更好的性能指标。
-
公开(公告)号:CN117557783A
公开(公告)日:2024-02-13
申请号:CN202311646648.1
申请日:2023-12-04
申请人: 杭州电子科技大学
IPC分类号: G06V10/25 , G06V20/54 , G06V10/82 , G06V10/764 , G06V10/774 , G06N3/045 , G06N3/0464 , G06N3/082
摘要: 本发明属于人工智能中的智能交通目标检测领域,公开了一种应用于复杂交通场景的实时目标检测系统及方法,包括基础锚框匹配模块和双向多池化注意力模块,其特征在于:上述模块在目标检测过程中充分提取图像的各个尺度的特征,以低模型复杂度完成目标的识别分类。所述基础锚框匹配模块中,首先随机生成N个大小、尺寸都随机初始化的锚框,然后根据设置的距离生成算法计算样本中真实框与N个框之间的距离,并且实时调整N个框的大小,最后迭代1000轮,生成适合预测目标的锚框。所述距离生成算法采用宽高比、IOU,利用相关数ω1、ω2来控制IOU、宽高比对于候选锚框和真实框的影响程度,重新刻画的锚框与真实框的距离。
-
公开(公告)号:CN112188212B
公开(公告)日:2024-02-13
申请号:CN202011082884.1
申请日:2020-10-12
申请人: 杭州电子科技大学
IPC分类号: H04N19/40 , H04N19/136 , H04N7/18 , G06V20/40 , G06V10/25 , G06V10/82 , G06N3/0464
摘要: 本发明公开了一种高清监控视频智能转码的方法及装置,方法包括:S1,解码;S2,缩放;S3,目标检测,通过卷积神经网络学得的特征,将图像分割成单元格,单元格用于预测边界框,从而检测中心落在单元格中的目标对象;S4,跟踪,对比前后两帧中预测的边界框,实现对目标对象的跟踪;S5,丢帧,采用自适应丢帧操作,根据目标对象的位移矢量大小,判断关键帧的间隔长短,丢弃关键帧之间的非关键帧;S6,编码;装置包括:用于解码的GV9531芯片和用于编码VC8000E芯片,还包括分别与GV9531芯片和VC8000E芯片连接的CSKY860芯片,CSKY860芯片决定需要编码的图像帧。
-
公开(公告)号:CN117319654A
公开(公告)日:2023-12-29
申请号:CN202311392255.2
申请日:2023-10-25
申请人: 杭州电子科技大学 , 浙江省经济信息中心(浙江省价格研究所)
IPC分类号: H04N19/124 , H04N19/147 , H04N19/19 , H04N19/70
摘要: 本发明属于视频编码领域,公开了一种基于扫描线并行RDOQ算法优化的硬件及流水实现方法,本发明在算法上将最优系数决策的之字形扫描线拆解成多个单向扫描线,以实现并行计算。在最优非零位置决策阶段,将迭代计算拆分成单条扫描线的并行计算,最后对各个扫描线上的最优位置进行RD cost的比较,在保证实时效果良好的前提下,减少迭代的周期,以满足视频编码处理的实时需求。本发明优化了传统的RD cost计算算法。Rate的强数据依赖使得运算须在单周期内完成,减少了硬件设计中运算的操作数量,节省了资源消耗。本发明充分利用Distortion无数据依赖的特性将运算拆分到多个流水线中,有效了提高硬件设计的时序表现。
-
公开(公告)号:CN117218176A
公开(公告)日:2023-12-12
申请号:CN202311052744.3
申请日:2023-08-21
申请人: 杭州电子科技大学
IPC分类号: G06T7/593 , G06T15/00 , G06T17/00 , G06N3/0895 , G06N3/045
摘要: 本发明公开了一种基于NeRF生成数据的立体深度估计方法。首先对N个室内物体进行扫描,采集双目红外图像,每次扫描数据不含重复的物体;然后训练NeRF模型,得到任意角度的红外图像;再进行数据集预处理;最后确定并训练立体深度估计模型。本发明结合d435i深度传感器和NeRF模型,仅使用采集的红外图像,经过NeRF渲染生成任意角度的红外图像立体对,通过深度学习算法,得到预测的深度图。相较于传统经典算法,大大降低了数据收集的难度和成本,也避免了过度平滑、边缘增肥等问题。
-
-
-
-
-
-
-
-
-