一种基于全局-局部对比学习的领域自适应目标检测方法

    公开(公告)号:CN117876668A

    公开(公告)日:2024-04-12

    申请号:CN202410063203.9

    申请日:2024-01-16

    摘要: 本发明公开了一种基于全局‑局部对比学习的领域自适应目标检测方法,包括:获取数据样本,所述样本数据包括源域数据和目标域数据;基于所述源域数据和目标域数据生成中间域数据并进行域自适应过程;基于全局‑局部对比学习特征对齐模块对所述域自适应过程进行训练得到训练好的判别器;基于所述训练好的判别器对所述源域数据和目标域数据进行特征提取得到源域数据特征图像和目标域数据特征图像;将所述源域数据特征图像和目标域数据特征图像输入协同训练网络得到域自适应目标检测结果。本发明通过全局和局部对比学习在两层特征层面上进行域适应,有效减小图像域之间的特征差异促进了全局和局部一致的表示,同时提高了检测精度。

    一种基于world-tacotron的语音合成方法、系统及服务器

    公开(公告)号:CN113129862B

    公开(公告)日:2024-03-12

    申请号:CN202110436317.X

    申请日:2021-04-22

    摘要: 本发明涉及一种人工智能技术领域,提供一种基于world‑tacotron的语音合成方法、系统及服务器,本发明在现有的tacotron模型基础上,将韵律信息融入端到端声学建模过程,引入双任务学习框架,主任务为改进的tacotron模型,学习基于字符级嵌入表示的声学特征参数预测;辅助任务为韵律生成模型,即韵律生成器,学习基于词级嵌入的韵律预测。本发明在训练阶段,通过双任务的联合训练,在模型训练中可以学习到更加显示的韵律知识,从而优化了输出语音的质量。

    一种视觉问答方法、系统及服务器

    公开(公告)号:CN113205507B

    公开(公告)日:2023-03-10

    申请号:CN202110540093.7

    申请日:2021-05-18

    摘要: 本发明提供一种视觉问答方法、系统及服务器,包括:获取输电设备的图像数据,图像数据包括视频数据和图片数据;预处理图像数据,得到原始数据集;对原始数据集依次进行视觉问答标注和语义分割标注,得到视觉问答数据集;对视觉问答数据集进行训练,得到视觉问答模型;输入问题文本和图片到视觉问答模型,得到视觉问答结果。本发明对图像数据进行视觉问答标注和语义分割标注,得到视觉问答数据集,从而建立了图像数据的语义分割与文本问答之间的图文链接;根据该视觉问答数据集训练得到的视觉问答模型,以图文链接作为锚点,将输入的图片与文本在语义上对齐,提高了视觉问答模型的性能,获得了更加准确的视觉问答结果。

    一种机务段场景视觉问答方法、系统及服务器

    公开(公告)号:CN113222026A

    公开(公告)日:2021-08-06

    申请号:CN202110539044.1

    申请日:2021-05-18

    摘要: 本发明提供了一种机务段场景视觉问答方法、系统及服务器,采用机车正常状态和动作前状态的两种机务段场景的图像数据,创建具有双重注意力与动态描述的第一视觉问答模型,通过对两个模块的联合训练,极大地提升在多个需要机车做出反应的场景变化对象同时出现以及场景内干扰物较多情况下的场景视觉问答能力、提高了复杂环境下机务段场景的检测效果,同时提升对于机务段场景视频的动态判断与描述能力,在需引起机车反应的机务段场景对象动态变化时,保持高稳定性的描述,满足了复杂度极高的工业的使用需求。

    一种铁路机务段场景描述方法及系统

    公开(公告)号:CN111914710A

    公开(公告)日:2020-11-10

    申请号:CN202010720114.9

    申请日:2020-07-24

    摘要: 本发明公开一种铁路机务段场景描述方法及系统。所述铁路机务段场景描述方法包括:获取铁路机务段场景图像数据,预处理铁路机务段场景图像数据为标记图像数据,将标记图像数据划分为训练样本和测试样本,对标记图像数据进行检验,以剔除标记图像数据中异常的图像数据,以得到数据集,通过跨语言图像描述模型训练训练样本,以得到训练后的跨语言图像描述模型,通过训练后的跨语言图像描述模型对所述测试样本进行图像描述,以得到图像描述结果。本发明不需要采用人工观测机务段场景,描述效果好。

    一种基于MDCT量化系数的小值区的AAC音频隐写和提取方法

    公开(公告)号:CN104867496B

    公开(公告)日:2018-06-15

    申请号:CN201510233352.6

    申请日:2015-05-08

    IPC分类号: G10L19/018

    摘要: 本发明公开了一种基于MDCT量化系数的小值区的AAC音频隐写和提取方法,其特征是按如下步骤进行:1根据AAC音频码本建立包含有index对和码长的映射表;2根据映射表,建立隐写规则;3利用映射表和隐写规则实现秘密信息的嵌入和提取。本发明能够降低隐写和提取过程的计算复杂度,提高隐写的不可感知性和抗隐写分析性,从而能够在AAC音频中安全、高效的隐藏信息以及快速的提取信息。

    基于物联网技术的石斛生态因子多元线性回归分析方法

    公开(公告)号:CN107315720A

    公开(公告)日:2017-11-03

    申请号:CN201710387419.0

    申请日:2017-05-27

    IPC分类号: G06F17/18 G01D21/02

    CPC分类号: G06F17/18 G01D21/02

    摘要: 本发明公开了一种基于物联网技术的石斛生态因子多元线性回归分析方法,采用物联网的传感器采集及传输技术对石斛生长的环境中的各种生态因子数据进行实时采集,然后通过有线及无线的传输方式经网关传输到数据中心,数据中心首先对数据进行分类,将生态因子作为自变量石斛生长状况作为因变量,其次采用多元线性分析的方法能够更加全面和科学的分析出多种生态因子对石斛生长的具体影响,最后采用最小二乘法更够更加精确的对生态因子与石斛生长情况的线性参数进行估计,能够精确的反映环境中的生态因子参数对石斛生长的具体影响,以便指导石斛的培养繁殖。

    一种基于提示学习的图像聚类方法

    公开(公告)号:CN117351249A

    公开(公告)日:2024-01-05

    申请号:CN202311297007.X

    申请日:2023-10-09

    摘要: 本发明公开了一种基于提示学习的图像聚类方法,本发明属于计算机视觉领域,包括:获取不同类型图像,基于所述不同类型图像,得到若干个图像张量;初始化提示模板,构建基于提示学习的ViT模型;将所述若干个图像张量与所述提示模板拼接后输入至ViT模型,得到若干个特征向量;将若干个特征向量进行联合对比学习,得到图像聚类结果;其中所述联合对比学习为实例级与全局聚类级对比学习。本发明利用提示学习的方法能够提高模型的鲁棒性和泛化能力,从而在聚类任务中取得更好的性能。