-
公开(公告)号:CN115239765B
公开(公告)日:2024-03-29
申请号:CN202210921013.7
申请日:2022-08-02
申请人: 合肥工业大学
IPC分类号: G06T7/246 , G06V10/40 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/045
摘要: 本发明公开了一种基于多尺度可形变注意力的红外图像目标跟踪系统及方法。其中跟踪系统包括搜索图分支、模板图分支、特征融合模块和预测模块;其中搜索图分支用于提取搜索图在第一尺度和第二尺度下的特征拼接得到的搜索图多尺度特征Fs;模板分支用于提取模板图在第三尺度和第四尺度下的特征拼接得到的模板图多尺度特征Ft;特征融合模块用于根据搜索图多尺度特征Fs和模板图多尺度特征Ft计算融合特征Gst;预测模块用于根据融合特征Gst预测搜索图中的目标边框。该系统融合了低层和高层的特征,有利于红外图像中目标的跟踪。
-
公开(公告)号:CN117649839A
公开(公告)日:2024-03-05
申请号:CN202410120426.4
申请日:2024-01-29
申请人: 合肥工业大学
IPC分类号: G10L13/027 , G10L13/08 , G10L25/30
摘要: 本发明涉及语音合成技术领域,公开了一种基于低秩适应的个性化语音合成方法,包括以下步骤:获取具有多个音频文件的音频数据集;构建基础合成模型并进行训练;构建低秩适应网络并进行训练;进行推理;本发明通过低秩适应快速地训练个性化解码器,实现定制化需求,同时加入F0预测器来提取丰富的音频特征,并应用于解码器的训练以及后验概率分布的采样点生成中,以此来生成更加贴合原声的音频。
-
公开(公告)号:CN113204670B
公开(公告)日:2022-12-09
申请号:CN202110565400.7
申请日:2021-05-24
申请人: 合肥工业大学
IPC分类号: G06F16/738 , G06F16/783 , G06V10/40 , G06V10/774 , G06V10/82 , G06N3/04 , G06N3/08
摘要: 本发明公开了一种基于注意力模型的视频摘要描述生成方法及装置,其中方法包括:获取原始视频数据集及对应的视频摘要数据集并处理,提取对应视频帧的时序特征序列;将所述视频帧的时序特征序列输入到视频摘要模型中进行处理,生成对应的语义特征;对所述语义特征利用损失函数进行评价;本发明实现对视频摘要数据的处理,同时这种还能有效的保持了摘要与原视频之间语义的一致性。
-
公开(公告)号:CN114821569A
公开(公告)日:2022-07-29
申请号:CN202210741965.0
申请日:2022-06-28
申请人: 合肥工业大学
摘要: 本发明公开了一种基于注意力机制的场景文本识别方法及系统,包括获取场景文本图像数据集,并进行预处理;构建场景文本识别模型,并将预处理后的场景文本图像数据集输入场景文本识别模型进行模型训练;场景文本识别模型包括用于将场景文本图像矫正为规则的转换网络、用于将矫正后的场景文本图像提取为全局视觉特征的特征提取模块,以及多层注意力解码器;获取待检测的场景文本图像的测试集输入模型,得到识别的准确率作为模型的性能评价指标进行评估和检测结果。本发明通过构建改进的场景文本识别模型,并将全局注意力机制、自注意力机制引入其中,融合了多层叠加的注意力解码器,有效提高模型对全局视觉特征和全局序列特征的解码能力。
-
公开(公告)号:CN114691986A
公开(公告)日:2022-07-01
申请号:CN202210277795.5
申请日:2022-03-21
申请人: 合肥工业大学
IPC分类号: G06F16/9535 , G06F16/435 , G06F16/48 , G06N3/04 , G06N3/08
摘要: 本发明的一种基于子空间适应性间距的跨模态检索方法及存储介质,包括以下步骤,数据预处理,进行训练集测试集数据划分,并提取数据的原始高维特征;输入原始高维特征到网络模型获取图像文本的公共特征和对应的预测标签信息;使用公共特征和标签信息计算每种模态不同类别样本的适应性间距损失,然后结合注意力机制聚焦图片和文本中类别信息用于增强不同类别的判别性,最后计算不同模态之间的不变性损失;再通过反向传播对损失函数进行优化去迭代网络模型至收敛;使用收敛的网络模型计算所有图像文本的公共特征;最后对查询数据特征与公共特征进行相似度计算并排序返回结果。采用本发明进行跨模态检索的精度高于现有方法进行跨模态检索的精度。
-
公开(公告)号:CN113628143A
公开(公告)日:2021-11-09
申请号:CN202110975115.2
申请日:2021-08-24
申请人: 合肥工业大学
摘要: 本发明公开了一种基于多尺度卷积的加权融合图像去雾方法及装置,应用于图像处理技术领域,包括:构建图像去雾模型;获取成对的有雾图像数据及无雾图像数据,利用所述编码器对所述有雾图像数据进行处理,得到对应的第一特征图;基于多个所述特征提取模块及所述通道加权融合模块实现对所述第一特征图的转换及去雾;将经过上述步骤得到的结果利用所述编码器进行转换,并输出最终的无雾图像。本发明提供了一种基于多尺度卷积的加权融合图像去雾方法及装置,通过设置多个加权融合模块能够平衡整个网络的权重信息,通过应用多尺度卷积提取来自多尺度特征信息,可以在不应用上采样和下采样的情况下从不同尺度提取图像特征,避免了图像失真。
-
公开(公告)号:CN113590965A
公开(公告)日:2021-11-02
申请号:CN202110896190.X
申请日:2021-08-05
IPC分类号: G06F16/9535 , G06F16/78 , G06F16/36 , G06K9/62 , G06N3/04
摘要: 本发明公开了一种融合知识图谱与情感分析的视频推荐方法,包括:1、使用知识图谱作为额外辅助信息,通过文本卷积神经网络提取视频特征生成视频向量;2、构建情感兴趣预测模型,眼动仪采集的眼动数据通过广义回归神经网络生成情感向量;3、将历史视频向量与对应的视频情感向量进行拼接经过神经网络DNN生成历史视频最终向量,计算所有历史视频最终向量的加和平均值动态的构建用户向量;4、候选视频向量和用户向量拼接后通过多层感知计算用户点击候选视频的概率,得到Top‑N推荐列表。本发明通过建立融合知识图谱与情感分析的视频推荐模型,用于用户的个性化推荐,并能提高推荐精度。
-
公开(公告)号:CN110334687A
公开(公告)日:2019-10-15
申请号:CN201910638547.7
申请日:2019-07-16
申请人: 合肥工业大学
摘要: 本发明公开了一种基于行人检测、属性学习和行人识别的行人检索增强方法,包括行人检测、行人重识别、行人属性预测,通过使用行人检测损失函数、属性分类损失函数和身份分类损失函数,利用属性和身份标签通过训练框架识别行人在图像中的位置,最终的损失函数。本发明通过开发一个多任务的深度学习框架来解决行人检索问题,该框架在单个卷积神经网络中综合考虑了行人检测、行人重识别和行人属性预测,提高检索精度。
-
公开(公告)号:CN107577786B
公开(公告)日:2019-09-10
申请号:CN201710833356.7
申请日:2017-09-15
申请人: 合肥工业大学
IPC分类号: G06F16/9535 , G06F16/9536 , G06F16/35 , G06F17/16
摘要: 本发明公开了一种基于联合聚类的矩阵分解推荐方法,包括:1构造用户‑项目评分矩阵;2用户‑项目评分矩阵通过联合聚类分成若干个类别;3针对聚类后的类别,利用概率矩阵分解的方法对每个类别的未知评分并行地进行预测并根据预测的评分进行推荐。本发明能够充分利用聚类内部间的紧密相关性和概率矩阵分解算法的高精度,对于信息过载时代的大数据处理问题,能够在保证不错精度的同时以较快的速度进行推荐。
-
公开(公告)号:CN108966042A
公开(公告)日:2018-12-07
申请号:CN201811052010.4
申请日:2018-09-10
申请人: 合肥工业大学
IPC分类号: H04N21/8549 , H04N21/845
CPC分类号: H04N21/8549 , H04N21/8456
摘要: 本发明公开了一种基于最短路径的视频摘要生成方法及装置。该方法包括:获取待处理视频的视频帧信息;对所述视频帧信息进行采样,获取所述视频帧信息的采样信息;根据所述采样信息确定所述待处理视频的分段位置,在所述分段位置处对所述待处理视频进行分段,得到分段视频;对所述分段视频中的视频帧进行聚类,获取候选关键帧;构建有向图,结合所述有向图与最短路径算法计算得到最短路径,将所述最短路径的所述候选关键帧去冗余得到关键帧,根据所述关键帧生成视频摘要。本发明具有图模型简单,计算量少,视频摘要获取效率高的优点。
-
-
-
-
-
-
-
-
-