一种基于低秩适应的个性化语音合成方法

    公开(公告)号:CN117649839A

    公开(公告)日:2024-03-05

    申请号:CN202410120426.4

    申请日:2024-01-29

    摘要: 本发明涉及语音合成技术领域,公开了一种基于低秩适应的个性化语音合成方法,包括以下步骤:获取具有多个音频文件的音频数据集;构建基础合成模型并进行训练;构建低秩适应网络并进行训练;进行推理;本发明通过低秩适应快速地训练个性化解码器,实现定制化需求,同时加入F0预测器来提取丰富的音频特征,并应用于解码器的训练以及后验概率分布的采样点生成中,以此来生成更加贴合原声的音频。

    一种基于注意力机制的场景文本识别方法及系统

    公开(公告)号:CN114821569A

    公开(公告)日:2022-07-29

    申请号:CN202210741965.0

    申请日:2022-06-28

    摘要: 本发明公开了一种基于注意力机制的场景文本识别方法及系统,包括获取场景文本图像数据集,并进行预处理;构建场景文本识别模型,并将预处理后的场景文本图像数据集输入场景文本识别模型进行模型训练;场景文本识别模型包括用于将场景文本图像矫正为规则的转换网络、用于将矫正后的场景文本图像提取为全局视觉特征的特征提取模块,以及多层注意力解码器;获取待检测的场景文本图像的测试集输入模型,得到识别的准确率作为模型的性能评价指标进行评估和检测结果。本发明通过构建改进的场景文本识别模型,并将全局注意力机制、自注意力机制引入其中,融合了多层叠加的注意力解码器,有效提高模型对全局视觉特征和全局序列特征的解码能力。

    基于子空间适应性间距的跨模态检索方法及存储介质

    公开(公告)号:CN114691986A

    公开(公告)日:2022-07-01

    申请号:CN202210277795.5

    申请日:2022-03-21

    摘要: 本发明的一种基于子空间适应性间距的跨模态检索方法及存储介质,包括以下步骤,数据预处理,进行训练集测试集数据划分,并提取数据的原始高维特征;输入原始高维特征到网络模型获取图像文本的公共特征和对应的预测标签信息;使用公共特征和标签信息计算每种模态不同类别样本的适应性间距损失,然后结合注意力机制聚焦图片和文本中类别信息用于增强不同类别的判别性,最后计算不同模态之间的不变性损失;再通过反向传播对损失函数进行优化去迭代网络模型至收敛;使用收敛的网络模型计算所有图像文本的公共特征;最后对查询数据特征与公共特征进行相似度计算并排序返回结果。采用本发明进行跨模态检索的精度高于现有方法进行跨模态检索的精度。

    一种基于多尺度卷积的加权融合图像去雾方法及装置

    公开(公告)号:CN113628143A

    公开(公告)日:2021-11-09

    申请号:CN202110975115.2

    申请日:2021-08-24

    摘要: 本发明公开了一种基于多尺度卷积的加权融合图像去雾方法及装置,应用于图像处理技术领域,包括:构建图像去雾模型;获取成对的有雾图像数据及无雾图像数据,利用所述编码器对所述有雾图像数据进行处理,得到对应的第一特征图;基于多个所述特征提取模块及所述通道加权融合模块实现对所述第一特征图的转换及去雾;将经过上述步骤得到的结果利用所述编码器进行转换,并输出最终的无雾图像。本发明提供了一种基于多尺度卷积的加权融合图像去雾方法及装置,通过设置多个加权融合模块能够平衡整个网络的权重信息,通过应用多尺度卷积提取来自多尺度特征信息,可以在不应用上采样和下采样的情况下从不同尺度提取图像特征,避免了图像失真。

    一种基于行人检测、属性学习和行人识别的行人检索增强方法

    公开(公告)号:CN110334687A

    公开(公告)日:2019-10-15

    申请号:CN201910638547.7

    申请日:2019-07-16

    IPC分类号: G06K9/00 G06K9/62 G06N3/04

    摘要: 本发明公开了一种基于行人检测、属性学习和行人识别的行人检索增强方法,包括行人检测、行人重识别、行人属性预测,通过使用行人检测损失函数、属性分类损失函数和身份分类损失函数,利用属性和身份标签通过训练框架识别行人在图像中的位置,最终的损失函数。本发明通过开发一个多任务的深度学习框架来解决行人检索问题,该框架在单个卷积神经网络中综合考虑了行人检测、行人重识别和行人属性预测,提高检索精度。

    一种基于联合聚类的矩阵分解推荐方法

    公开(公告)号:CN107577786B

    公开(公告)日:2019-09-10

    申请号:CN201710833356.7

    申请日:2017-09-15

    摘要: 本发明公开了一种基于联合聚类的矩阵分解推荐方法,包括:1构造用户‑项目评分矩阵;2用户‑项目评分矩阵通过联合聚类分成若干个类别;3针对聚类后的类别,利用概率矩阵分解的方法对每个类别的未知评分并行地进行预测并根据预测的评分进行推荐。本发明能够充分利用聚类内部间的紧密相关性和概率矩阵分解算法的高精度,对于信息过载时代的大数据处理问题,能够在保证不错精度的同时以较快的速度进行推荐。

    一种基于最短路径的视频摘要生成方法及装置

    公开(公告)号:CN108966042A

    公开(公告)日:2018-12-07

    申请号:CN201811052010.4

    申请日:2018-09-10

    发明人: 赵烨 葛钊 刘学亮

    IPC分类号: H04N21/8549 H04N21/845

    CPC分类号: H04N21/8549 H04N21/8456

    摘要: 本发明公开了一种基于最短路径的视频摘要生成方法及装置。该方法包括:获取待处理视频的视频帧信息;对所述视频帧信息进行采样,获取所述视频帧信息的采样信息;根据所述采样信息确定所述待处理视频的分段位置,在所述分段位置处对所述待处理视频进行分段,得到分段视频;对所述分段视频中的视频帧进行聚类,获取候选关键帧;构建有向图,结合所述有向图与最短路径算法计算得到最短路径,将所述最短路径的所述候选关键帧去冗余得到关键帧,根据所述关键帧生成视频摘要。本发明具有图模型简单,计算量少,视频摘要获取效率高的优点。