视频和文本的处理方法和装置、存储介质及电子设备

    公开(公告)号:CN117216580A

    公开(公告)日:2023-12-12

    申请号:CN202310550454.5

    申请日:2023-05-15

    摘要: 本申请公开了一种视频和文本的处理方法和装置、存储介质及电子设备。其中,该方法包括:利用目标视频的原始视频特征对目标文本的原始文本特征进行重构,得到重构文本特征,其中,原始文本特征包括N1个词向量,原始视频特征包括N2个视频帧向量;利用原始文本特征对原始视频特征进行重构,得到重构视频特征,其中,重构视频特征包括N2个重构视频帧向量,N2个重构视频帧向量包括N2个视频帧的重构视频帧向量;根据N1个词向量、N1个重构词向量、N2个视频帧向量以及N2个重构视频帧向量,确定目标文本与目标视频之间的语义相似度。本申请解决了相关技术中在在视频和文本的处理过程中出现的准确性较低的技术问题。

    多尺度加宽残差网络、小目标识别检测网络及其优化方法

    公开(公告)号:CN111626373B

    公开(公告)日:2023-07-25

    申请号:CN202010484081.2

    申请日:2020-06-01

    摘要: 本发明属于机器学习领域,具体涉及一种多尺度加宽残差网络、小目标识别检测网络及其优化方法,本发明多尺度加宽残差网络包括串行连接的多尺度加宽卷积层、多尺度加宽残差网络单元结构;所述多尺度加宽卷积层,包括并行设置的多个不同尺度的卷积核,其输出为所述多个不同尺度的卷积核提取特征的合并;所述多尺度加宽残差网络单元结构,包括多个串联设置的所述多尺度加宽卷积层,设定两个所述多尺度加宽卷积层之间跃层连接,以直接将两层输出特征取大融合。基于本发明得到的特征进行小目标识别检测,可以提高小目标物体识别的准确度。

    引力波侯选体筛选方法、装置及存储介质

    公开(公告)号:CN114549912B

    公开(公告)日:2022-07-15

    申请号:CN202210436894.3

    申请日:2022-04-25

    摘要: 本申请提供一种引力波侯选体筛选方法、装置及存储介质,其中方法包括:确定多探测器联合观测的观测数据的相干信噪比;将所述相干信噪比投射到天区图后得到目标二维图像;将所述目标二维图像输入至引力波侯选体筛选模型,得到所述引力波侯选体筛选模型输出的引力波侯选体筛选结果;所述引力波侯选体筛选模型是基于目标二维图像样本及预先确定的引力波侯选体标签训练后确定的。本申请通过模拟多探测器对同一天区图进行联合观测的观测结果,确定联合观测的相干信噪比,减少了噪声对信号的干扰,提升了观测数据的信噪比,同时结合深度学习算法,利用引力波侯选体筛选模型实现引力波信号的自动筛选识别。

    基于像素特征学习的无监督图像分割方法、装置及设备

    公开(公告)号:CN114627139A

    公开(公告)日:2022-06-14

    申请号:CN202210267325.0

    申请日:2022-03-18

    IPC分类号: G06T7/11 G06V10/40

    摘要: 本发明公开了基于像素特征学习的无监督图像分割方法、装置及设备,其中,所述方法包括:获取预处理后的待分割图像,作为第一图像;提取所述第一图像中的超像素,得到所述第一图像的超像素集合;根据所述超像素集合,得到第一损失函数;预测所述第一图像的离散表示,最大化所述第一图像与所述离散表示之间的互信息,得到第二损失函数;根据所述第一损失函数和第二损失函数对所述第一图像进行分割,得到分割结果。通过上述方式,本发明可以有效发现图像中的潜在对象类别,输出的分割块能够精准匹配对象轮廓,同时能够完整地覆盖对象区域,进而大幅度降低下游高级视觉算法的训练难度和计算复杂性。

    轨道交通异常检测方法、装置及存储介质

    公开(公告)号:CN114550460A

    公开(公告)日:2022-05-27

    申请号:CN202210436887.3

    申请日:2022-04-25

    IPC分类号: G08G1/01 G06N3/04 G06N3/08

    摘要: 本申请提供一种轨道交通异常检测方法、装置及存储介质,其中方法包括:获取轨道交通设备中被监测传感器的时间序列数据;将所述时间序列数据输入至轨道交通异常检测模型,得到所述轨道交通异常检测模型输出的轨道交通异常检测结果;所述轨道交通异常检测模型包括可变形Transformer编码模块、全局特征提取模块和可变形Transformer解码模块,所述可变形Transformer编码模块用于提取所述时间序列数据的多尺度特征,所述全局特征提取模块用于提取所述时间序列数据的全局特征,所述可变形Transformer解码模块用于基于所述时间序列数据的多尺度特征和全局特征生成所述轨道交通异常检测结果。

    基于各向异性卷积的图像分类方法及系统

    公开(公告)号:CN111126494A

    公开(公告)日:2020-05-08

    申请号:CN201911360305.2

    申请日:2019-12-25

    IPC分类号: G06K9/62 G06N3/04 G06N3/08

    摘要: 本发明涉及深度学习与图像分类领域,具体涉及一种基于各向异性卷积的图像分类方法及系统,目的在于解决当图像分辨率低、物体尺度和形态多变等情况下难以保证物体分类识别的精度的问题。本发明的图像分类方法包括:步骤A1,根据设定的标准图像大小,将训练图像与待分类图像都进行预处理;步骤A2,利用利用损失函数与预处理后的训练样本对神经网络进行训练优化,其中,神经网络包括各向异性卷积层;步骤A3,利用训练好的神经网络对预处理后的待分类图像进行特征提取与图像分类。本发明的神经网络能快速提取判别性特征因子,准确锁定图像中的物体轮廓,较好应对小图像、多形变等分类难题,从而充分挖掘了图像的空间信息,提高了物体分类的准确度。

    基于分解和剪枝的卷积神经网络压缩方法、系统、装置

    公开(公告)号:CN110782019A

    公开(公告)日:2020-02-11

    申请号:CN201911029615.6

    申请日:2019-10-28

    IPC分类号: G06N3/04

    摘要: 本发明属于人工智能领域,具体涉及一种基于分解和剪枝的卷积神经网络压缩方法、系统、装置,旨在解决采用低秩近似分解或结构化稀疏剪枝进行卷积神经网络压缩,导致压缩力度较小的问题。本系统方法包括将每个待压缩的卷积层后面添加一层系数矩阵表示层;通过低秩近似分解算法对系数矩阵表示层进行稀疏处理,并根据系数矩阵表示层稀疏的位置对对应的卷积层的滤波器进行剪枝处理;采用结构化稀疏剪枝方法对分解后的系数矩阵表示层进行稀疏处理,并根据系数矩阵表示层稀疏的位置对其滤波器进行剪枝处理;对稀疏剪枝处理后的卷积神经网络进行训练。本发明通过将低秩近似分解和结构化稀疏剪枝两种方法融合,解决了单一方法引起的缺陷,提高了压缩力度。

    基于骨骼关节点分区域分层次的行为识别方法、系统

    公开(公告)号:CN110215216A

    公开(公告)日:2019-09-10

    申请号:CN201910500528.8

    申请日:2019-06-11

    IPC分类号: A61B5/11

    摘要: 本发明属于计算机视觉领域,具体涉及一种基于骨骼关节点分区域分层次的行为识别方法、系统、装置,旨在为了解决有效提高行为识别准确率同时减少网络层数的问题。本发明方法包括:获取输入视频的各帧图像,从各帧图像中分别提取骨骼关节点;对每一帧图像,将其中所提取的所述骨骼关节点划分至所划分的各人体区域,并通过图卷积操作获取对应的特征表示,得到第一层特征表示集;对每一帧图像,按照所述各人体区域,基于所述第一层特征表示,通过池化、图卷积方法逐层减少关节点数量,直至通过多层聚合得到一个特征向量,并将该特征向量输入到两个全连接层得到行为类别。本发明提高了行为识别的准确率,加快了训练速度与检测速度。

    基于事件感知的跨模态视频文本检索模型的训练方法

    公开(公告)号:CN118410210A

    公开(公告)日:2024-07-30

    申请号:CN202410845065.X

    申请日:2024-06-27

    IPC分类号: G06F16/783 G06N20/00

    摘要: 本发明涉及机器学习技术领域,提供一种基于事件感知的跨模态视频文本检索模型的训练方法,方法包括:获取样本视频和初始检索模型,样本视频包含各视频帧的帧描述;提取各视频帧的帧特征和样本视频的视频特征;基于各视频帧的帧特征和各帧描述的帧文本特征进行事件内容对齐确定事件内容感知损失;基于视频特征和样本视频的整体文本特征进行事件时序对齐,确定事件时序感知损失;基于事件内容感知损失和事件时序感知损失,得到跨模态视频文本检索模型。本发明提供的方法,通过进行视频帧粒度的事件内容对齐和视频粒度的事件时序对齐,使得跨模态视频文本检索模型的事件理解能力大大提升,进而提升跨模态视频文本检索能力和鲁棒性。

    跨模态视频检索方法、装置及电子设备

    公开(公告)号:CN118227831A

    公开(公告)日:2024-06-21

    申请号:CN202410644212.7

    申请日:2024-05-23

    摘要: 本发明涉及视频检索技术领域,提供一种跨模态视频检索方法、装置及电子设备,方法包括:提取查询文本的隐式特征和词表特征;基于特征提取模型,得到各候选视频的隐式特征和各候选视频的词表特征;基于查询文本的隐式特征与各候选视频的隐式特征之间的相似度以及查询文本的词表特征与各候选视频的词表特征之间的相似度,确定查询文本对应的检索视频;特征提取模型的词表特征训练阶段以最小化样本视频的词表特征与样本描述文本的词表特征之间的差异为训练目标,联合训练阶段以样本视频的隐式特征与样本描述文本的隐式特征之间的相似度作为软标签,最小化学生预测结果与软标签之间的差异为训练目标。本发明能够提高跨模态视频检索能力。