一种生成式图像先验的场景文字图像超分辨方法

    公开(公告)号:CN119941509A

    公开(公告)日:2025-05-06

    申请号:CN202510014159.7

    申请日:2025-01-06

    Abstract: 本发明公开了一种生成式图像先验的场景文字图像超分辨方法,该方法包含两个阶段;第一个阶段,构建一个基于多模态的扩散模型,使用GPT模型从低分辨率文字图像中获得特定的文本信息,生成高分辨率图像先验;第二个阶段,构建一个ITPGDM模型,通过高分辨率图像先验和文字识别先验重构高分辨率文字图像,ITPGDM模型包括PSAB模块和CFAB模块,PSAB模块用于将不同先验信息对齐,CFAB模块用于细化字符级特征;所述ITPGDM模型表示基于图像和文本先验引导的场景文本图片超分辨扩散模型,PSAB模块表示先验语义对齐模块,CFAB模块表示字符关注模块。本发明方法充分利用了扩散模型和GPT模型的强大优势,并使用多先验语义对齐模块和字符关注模块增强场景文字图像超分辨的能力。

    一种基于属性感知关系推理的通用图像美学评估方法和装置

    公开(公告)号:CN114429460B

    公开(公告)日:2025-04-18

    申请号:CN202210080621.X

    申请日:2022-01-24

    Abstract: 本发明公开了一种基于属性感知关系推理的通用图像美学评估方法和装置,用于提高通用图像美学评估模型的准确性。本发明首先利用卷积神经网络构建特征提取器,得到图像的全局特征图;并在全局特征图的基础上,通过学习图像的美学属性来生成属性感知特征图;然后利用自注意力机制构建属性关系推理模块,并进一步得到美学属性的关系特征图;最后把全局特征图、美学属性特征和属性关系特征图进行特征联合,同时对图像的美学分布进行建模预测;最终通过计算把美学分布转化成图像的通用美学分数;本发明可有效地评估待测试图像的通用美学分数,准确率高,并且本发明可以有效地筛选出符合大众审美的图像,易于应用在图像检索和图像增强等技术中。

    溺水行为分析方法及基于多目标跟踪与识别的防溺水系统

    公开(公告)号:CN118609200B

    公开(公告)日:2024-12-13

    申请号:CN202410624672.3

    申请日:2024-05-20

    Abstract: 本发明公开了一种溺水行为分析方法及基于多目标跟踪与识别的防溺水系统,先采用多目标识别算法识别人体目标、定位人体位置并标注人体关键点,然后采用多目标跟踪算法跟踪人体目标、人体位置及人体关键点,接着基于人体位置、人体关键点建立人体目标的动态信息库,最后采用溺水行为分析算法对动态信息库进行分析,生成游泳者标定画面与预警信息。本发明通过计算机视觉技术,快速识别游泳者潜在溺水风险,防患于未然,具有准确稳定的优点,能够实现全时间段、全方位的监控,有效地减少了人力成本和资源消耗,利于降低溺水事故的发生率,提高了游泳运动的安全性。

    一种基于双重稀疏长短期Transformer的视频阴影检测方法

    公开(公告)号:CN118658093A

    公开(公告)日:2024-09-17

    申请号:CN202410759579.3

    申请日:2024-06-13

    Abstract: 本发明公开了一种基于双重稀疏长短期Transformer的视频阴影检测方法,先将第一帧图像输入微调SAM模型生成参考帧伪掩码,并用于初始化长短期记忆库,然后将当前帧图像输入编码器提取查询特征,同时从长短期记忆库读取长短期记忆特征,然后引入阴影分区机制获取仅关注阴影分区的注意力值,将查询特征、长短记忆特征和仅关注阴影分区的注意力值一起输入到双重稀疏长短期Transformer模块,同时学习全局视觉信息和局部阴影信息,最后利用解码器生成当前帧图像的预测掩码,并将查询特征和预测掩码组成新的记忆特征,直接存储进短期记忆库,通过长期记忆库更新模块存储进长期记忆库。本发明方法充分利用了Transformer的强大优势,结合阴影区域上下文和时间一致性来增强阴影外观学习的能力。

    一种基于双流视觉提示的高光谱目标跟踪方法

    公开(公告)号:CN117994282A

    公开(公告)日:2024-05-07

    申请号:CN202410192605.9

    申请日:2024-02-21

    Abstract: 本发明公开了一种基于双流视觉提示的高光谱目标跟踪方法,先通过CIE颜色匹配函数和波段选择模块对输入的两帧高光谱图像进行初始预处理操作得到三组图像,经裁剪并切块,输入到嵌入层以获得基础令牌和提示令牌;这些令牌进入双流视觉提示器,通过初始互相关提示层和后续互相关提示层生成有效的视觉提示,各互相关提示层中的提示生成模块用于增强并融合基础信息流、光谱信息流、时空信息流。然后将视觉提示流与基础信息流进行逐元素相加输入骨干网络实现特征提取和交互。最后冻结主干参数,微调部分参数,利用损失函数进行模型训练。本发明方法利用光谱模态提示信息和时空模态提示信息增强了基础模态的表达能力并能充分发挥提示学习的优势。

    一种时空部件图的视频目标分割方法

    公开(公告)号:CN111652899B

    公开(公告)日:2023-11-14

    申请号:CN202010475318.0

    申请日:2020-05-29

    Abstract: 一种时空部件图的视频目标分割方法,首先使用孪生编码模型,分两个分支:一个分支输入历史帧和掩模捕获序列的动态特征,另一个分支输入当前帧图像和前一帧的分割掩模。其次,构建时空部件图,使用图卷积网络,学习时空特征,增强目标的外观和运动模型;并引入通道注意模块,把鲁棒的时空目标模型输出到解码模块。最后,设计平滑精细模块,结合相邻阶段的多尺度图像特征,从时空信息中分割出目标。本发明时空部件图模型可生成鲁棒目标外观和运动特征,解决目标遮挡、快速变化及背景杂波问题,进而缓解目标外观变化而导致的视觉目标漂移问题,同时能够提高视频目标分割的性能。

    一种基于变分自注意力强化学习的遥感图像内容描述方法

    公开(公告)号:CN111126282B

    公开(公告)日:2023-05-12

    申请号:CN201911352556.6

    申请日:2019-12-25

    Abstract: 本发明公开了一种基于变分自注意力强化学习的遥感图像内容描述方法,属于计算机视觉和自然语言处理的交叉领域;包括:使用遥感图像分类数据集,预训练融合变分自编码器的卷积神经网络;使用预训练的卷积神经网络提取遥感图像的空间特征和语义特征;使用自注意力使空间特征融合上下文信息;使用遥感图像内容描述数据集,使用Transformer解码空间特征和语义特征,融合特征,输出遥感图像内容的文本描述;使用强化学习提升文本描述质量。本发明利用遥感图像分类数据集,融合变分自编码器进行卷积神经网络预训练,使用自注意力机制,特征融合,强化学习,优化了遥感图像内容描述文本的质量。

Patent Agency Ranking