一种3D人体运动序列-文本的跨模态检索方法

    公开(公告)号:CN118643117A

    公开(公告)日:2024-09-13

    申请号:CN202410663124.1

    申请日:2024-05-27

    发明人: 王勇 严胜 杜鑫 王义

    摘要: 本发明涉及人体运动与自然语言技术领域,尤其涉及一种3D人体运动序列‑文本的跨模态检索方法。步骤如下:S1:构建Rehamot模型,通过文本检索的方式,从自然语言标注的人体运动数据库中检索相关的人体运动序列;S2:通过基于难负样本挖掘的三元组损失Max ofHinges Loss进行对比训练。本发明提供的一种3D人体运动序列‑文本的跨模态检索方法,通过跨感知突出映射使用双向的文本到运动和运动到文本的细粒度相似度计算,进而根据不同的样本突出地感知不同姿势或单词的细粒度信息,从而突出诸如“walk”和“run”这种理论上严重影响结果走向的关键信息,并通过代表语义相似界限的阈值进行检测负样本。

    基于图卷积和注意力机制的三维人体姿态估计系统及方法

    公开(公告)号:CN118038553B

    公开(公告)日:2024-07-05

    申请号:CN202410186146.3

    申请日:2024-02-19

    发明人: 王勇 刘鹏

    摘要: 本发明公开了基于图卷积和注意力机制的三维人体姿态估计系统及方法,涉及三维人体姿态估计技术领域;该系统,由M个堆叠的基本块串行连接构成,每个基本块内均将通道维度C拆分得到维度C1和维度C2,对维度C1和维度C2分别通过精炼回归关联捕获模块RR‑ACM和泛化制导关联捕获模块GG‑ACM得到两个不同的融合特征信息,再通过特征融合模块LCM对两个不同的融合特征信息处理得到两个相对互补的关联特征,最后使用并行设计的全局知识先验捕获模块GKPC和局部区域主体捕获模块LRAC基于两个相对互补的关联特征对人体姿态的全局和局部特征间关联关系进行捕获;本发明通过双流图卷积注意力特征捕获,从单目图像中提取3维人体姿态。

    基于全局-局部光照感知的低光图像增强方法及系统

    公开(公告)号:CN118195947A

    公开(公告)日:2024-06-14

    申请号:CN202410489111.7

    申请日:2024-04-23

    摘要: 本发明公开了基于全局‑局部光照感知的低光图像增强方法及系统,涉及低光图像增强技术领域;该方法包括如下步骤:S1、将原始低光图像通过第一卷积层得到基础特征;S2、将基础特征输入由多个Block组成的编解码结构中进行增强得到深层特征,每个Block内部包括多级特征提取模块和多级注意力融合模块;所述多级特征提取模块用于进行全局信息和局部信息的提取,所述多级注意力融合模块用于对两部分信息进行筛选及向后传递;S3、将深层特征与原始低光图像进行融合得到增强图像;S4、将增强图像输入基于密集残差连接的图像降噪网络进行降噪。本发明中低光图像增强方法能够有效结合图像的全局和局部信息,解决光照分布不均匀的问题,同时减少增强图像的噪声。

    一种基于光照和反射互补性的低照度图像增强方法

    公开(公告)号:CN114066747B

    公开(公告)日:2024-05-31

    申请号:CN202111214412.1

    申请日:2021-10-19

    摘要: 本发明公开了一种基于光照和反射互补性的低照度图像增强方法,涉及图像处理技术领域。本发明包括:构建配对的数据集;将图像进行分解,得到反射分量光照分量;输入复原网络实现反射分量的复原;输入提亮网络,提亮网络用来提升图像的亮度并输出最终结果。本发明依据分解后的光照分量和反射分量之间存在互补关系,建立了一个新的低光照图像增强框架,充分利用光照反射的关系并有效增强了低光照图像;通过提出一个新的混合双重注意力模块,该模块利用光照分量和反射分量之间的混合关系来对特征进行增强,显著提升了模型的恢复效果;提出了新的提亮网络,巧妙的融合全局信息和嵌入光照系数以得到出色的增强结果。

    基于动作和风格的三维人体运动生成方法

    公开(公告)号:CN117523150A

    公开(公告)日:2024-02-06

    申请号:CN202311469702.X

    申请日:2023-11-07

    摘要: 本发明涉及三维人体运动生成技术领域,尤其涉及一种基于动作和风格的三维人体运动生成方法。步骤如下:用时空提取器来从运动序列中提取特征;用三维人体运动序列来训练模型的运动生成能力;用自适应实例标准化层来实现风格的注入。本发明提供的一种基于动作和风格的三维人体运动生成方法,通过时空提取器,从时间和空间维度上提取运动特征,提高了运动生成的准确率和结果的多样性;使用真实的运动片段来提供风格,并利用Ada I N进行风格注入,从而生成具有独特风格特征的运动序列。

    一种用于点云补全的特征提取与点云生成方法

    公开(公告)号:CN117475162A

    公开(公告)日:2024-01-30

    申请号:CN202311351096.1

    申请日:2023-10-18

    摘要: 本发明涉及网络技术领域,尤其涉及一种用于点云补全的特征提取与点云生成方法。步骤如下:由编码器—解码器结构构成模型,包括特征提取器F、缺失点云生成器G和缺失点云鉴别器D。本发明提供的一种用于点云补全的特征提取与点云生成方法,通过结合偏移注意力的特征提取模块,有效加强了模型对点云局部和全局特征的提取能力;将提取到的特征从不同尺度和不同维度进行融合连接,提高点云数据的表示能力,使得关注的特征更加丰富;通过种子生成模块与分层的特征金字塔相结合的缺失点云生成器模块,能够保证预测的缺失点云的整体架构完整和清晰。

    一种基于门控机制的多任务联合训练机器阅读理解方法

    公开(公告)号:CN116108153B

    公开(公告)日:2024-01-23

    申请号:CN202310112991.1

    申请日:2023-02-14

    摘要: 本发明属于自然语言处理技术领域,具体涉及一种基于门控机制的多任务联合训练机器阅读理解方法。方法包括:文章与问题编码模块;交互模块;多级残差结构模块;答案预测模块。本发明通过门控机制对交互后的关联特征进行过滤,控制重要信息的流入和无用信息的流出,以把握信息的流动,从而准确的送入输出层对答案进行预测;通过引入残差结构的思想构建多级残差结构,将文章和问题交互后的表示融合原始语义信息,使语义信息更加丰富,对文章的理解更加充分,且避免了网络的退化;通过加入边缘损失函数进行多任务联合训练,保证分类任务和抽取任务的强耦合性,进一步学习正例和负例之间的特征差异。

    一种用于文档理解的多模态预训练方法

    公开(公告)号:CN117095397A

    公开(公告)日:2023-11-21

    申请号:CN202311033008.3

    申请日:2023-08-16

    发明人: 王勇 张蕾 张梅

    摘要: 本发明涉及文档阅读技术领域,尤其涉及一种用于文档理解的多模态预训练方法。步骤如下:S1:通过ResNet‑50做主干网络对图像特征提取模块的CNN架构进行改进;S2:采用预训练模型Transformer作为主干模型,通过一个残差卷积网络提取图像的全局特征;S3:在Transformer预训练模型中引入了空间注意力机制,通过THL模块用来学习多个Transformer层之间隐藏层特征;S4:通过数据集对Res‑THL网络进行预训练。本发明提供的一种用于文档理解的多模态预训练方法,通过Transformer隐藏层学习模块,并引入了空间注意力机制自适应地学习了Transformer隐藏层中蕴含的布局特征和文本特征;同时提出新的残差网络模块提高了模型学习图像特征的能力。

    一种基于Transformer的区域预估与多层级特征融合抓取检测方法

    公开(公告)号:CN116486219A

    公开(公告)日:2023-07-25

    申请号:CN202310318396.3

    申请日:2023-03-29

    摘要: 本发明公开了一种基于Transformer的区域预估与多层级特征融合抓取检测方法,涉及机器人技术领域。本发明步骤如下:RGB图像通过2D目标检测器的检测把需要进行抓取检测的目标区域框选中,与同一物体的深度图像进行组合成四通道的图片作为输入;四通道的输入经过Patch Partition模块分割成多块不重叠的patch,每个patch被看做是token,表示原始输入像素的级联。本发明采用Transformer架构,利用Transformer架构的编码器和解码器结构来编码解码抓取检测图像,使得模型具有优秀的全局特征关联与建模能力,具有更强的特征表达能力与泛化能力;并为了增强模型的迁移泛化能力以及丰富并保留更多的细粒度特征,采用了区域预估和多层级特征融合来增强模型抓取性能。

    一种基于动态图卷积和空间注意力的点云语义分割网络

    公开(公告)号:CN116246073A

    公开(公告)日:2023-06-09

    申请号:CN202310254570.2

    申请日:2023-03-16

    发明人: 王勇 杨楠 张梅

    摘要: 本发明公开了一种基于动态图卷积和空间注意力的点云语义分割网络,涉及点云语义分割特征提取技术领域。本发明包括以下步骤:输入N个点的F维点云X;构建局部动态图G=(V,ε)。本发明利用DenseNet思想拼接多个层次的特征来提高网络的拟合能力;通过最大池化和平均池化相结合的池化方法来获得全部局部图上最具有代表性的语义信息;并使用空间注意力机制挖掘空间语义信息,提取点之间的深层次语义相关性;通过移除空间转换网络的同时提出了一种新的边缘特征,降低网络的参数量;设计的GEConv模块可以丰富特征的多样性,引入的空间注意力模块,可以让网络学会关注更多重点信息。