-
公开(公告)号:CN114038052A
公开(公告)日:2022-02-11
申请号:CN202111121648.0
申请日:2021-09-24
Applicant: 南京南瑞信息通信科技有限公司 , 北京易达图灵科技有限公司 , 中国科学院自动化研究所
Abstract: 本发明提供一种行人重识别方法及系统,该方法包括:确定待识别行人图像;将待识别行人图像输入至特征提取模型,得到特征提取模型输出的全局特征向量和局部特征向量;对全局特征向量和局部特征向量进行拼接融合,得到所述待识别行人图像对应的完整特征表达;并基于完整特征表达,将待识别行人图像与预设图像库中的行人图像进行匹配,确定待识别行人图像的行人重识别结果;其中,局部特征向量包括特征提取模型确定的特征图在垂直方向及深度方向上的多个局部特征向量。该方法进行了全局特征向量和局部特征向量等多维特征的提取,并利用待识别行人图像的宏观全局特征与微观局部特征进行行人重识别,把控整体与细节,提高了行人重识别的准确率。
-
公开(公告)号:CN113705322A
公开(公告)日:2021-11-26
申请号:CN202110655846.9
申请日:2021-06-11
Applicant: 北京易达图灵科技有限公司 , 南京南瑞信息通信科技有限公司 , 中国科学院自动化研究所
Abstract: 本发明提供一种基于门限图神经网络的手写汉字识别方法和装置,其中方法包括:确定待识别汉字的汉字节点矩阵以及空间信息关系矩阵;所述汉字节点矩阵中的各汉字节点为所述待识别汉字的书写视频中每一时刻书写位置的坐标;将所述汉字节点矩阵和所述空间信息关系矩阵输入至汉字识别模型中,得到所述汉字识别模型输出的识别结果;其中,所述汉字识别模型用于基于门限图神经网络,提取所述汉字节点矩阵对应的包含图结构信息的汉字特征向量,提取所述汉字特征向量中的时序信息,得到时序特征向量,并基于所述时序特征向量经由瓶颈网络进行手写汉字识别。本发明综合了汉字的空间结构信息和时序信息,提高了手写汉字识别的准确性。
-
公开(公告)号:CN114120445A
公开(公告)日:2022-03-01
申请号:CN202111371379.3
申请日:2021-11-18
Applicant: 北京易达图灵科技有限公司 , 南京南瑞信息通信科技有限公司 , 中国科学院自动化研究所
Abstract: 本发明提供一种动态信息增强的行为识别方法及装置,所述方法包括:确定待识别视频的图像序列;将图像序列输入至行为识别模型,得到行为识别模型输出的行为识别结果,行为识别模型是基于样本视频的样本图像序列和样本行为识别结果训练得到的;其中,行为识别模型用于对图像序列中各帧图像进行特征提取,得到表观特征图序列,对表观特征图序列中每相邻两个表观特征图进行差分运算,得到动态特征图序列,对动态特征图序列和表观特征图序列进行特征编码,得到动态特征表示,并基于动态特征表示进行行为识别。本发明提供的方法、装置、电子设备与存储介质,在提升行为识别的准确率的同时,也提高了行为识别的实时性,应用价值更高。
-
公开(公告)号:CN113705322B
公开(公告)日:2024-05-24
申请号:CN202110655846.9
申请日:2021-06-11
Applicant: 北京易达图灵科技有限公司 , 南京南瑞信息通信科技有限公司 , 中国科学院自动化研究所
IPC: G06V30/32 , G06V10/82 , G06N3/0442 , G06N3/042 , G06N3/08
Abstract: 本发明提供一种基于门限图神经网络的手写汉字识别方法和装置,其中方法包括:确定待识别汉字的汉字节点矩阵以及空间信息关系矩阵;所述汉字节点矩阵中的各汉字节点为所述待识别汉字的书写视频中每一时刻书写位置的坐标;将所述汉字节点矩阵和所述空间信息关系矩阵输入至汉字识别模型中,得到所述汉字识别模型输出的识别结果;其中,所述汉字识别模型用于基于门限图神经网络,提取所述汉字节点矩阵对应的包含图结构信息的汉字特征向量,提取所述汉字特征向量中的时序信息,得到时序特征向量,并基于所述时序特征向量经由瓶颈网络进行手写汉字识别。本发明综合了汉字的空间结构信息和时序信息,提高了手写汉字识别的准确性。
-
公开(公告)号:CN113591546A
公开(公告)日:2021-11-02
申请号:CN202110653956.1
申请日:2021-06-11
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种语义增强型场景文本识别方法及装置,通过场景文本识别模型的编码器提取场景文本图像的视觉特征图以及上下文特征序列,并基于视觉特征图、上下文特征序列以及特征图的位置编码确定增强型特征表达,获取场景文本图像全局的视觉信息和语义信息,解码器采用特殊设计的循环神经网络单元进行解码,该单元能够均衡上下文信息的独立性和相关性。将隐含状态向量和展开后的增强型特征表达进行多头注意力运算,得到局部表观特征向量。局部表观特征向量与循环神经网络单元的隐层输出共同参与当前时刻的字符预测,增强了语义信息和视觉信息的相关性。多头注意力机制设计能够捕捉特征的显著性信息和辅助信息,使得场景文本识别结果准确率较高。
-
公开(公告)号:CN113591546B
公开(公告)日:2023-11-03
申请号:CN202110653956.1
申请日:2021-06-11
Applicant: 中国科学院自动化研究所
IPC: G06V30/40 , G06V10/82 , G06N3/0455 , G06N3/044 , G06N3/0442
Abstract: 本发明提供一种语义增强型场景文本识别方法及装置,通过场景文本识别模型的编码器提取场景文本图像的视觉特征图以及上下文特征序列,并基于视觉特征图、上下文特征序列以及特征图的位置编码确定增强型特征表达,获取场景文本图像全局的视觉信息和语义信息,解码器采用特殊设计的循环神经网络单元进行解码,该单元能够均衡上下文信息的独立性和相关性。将隐含状态向量和展开后的增强型特征表达进行多头注意力运算,得到局部表观特征向量。局部表观特征向量与循环神经网络单元的隐层输出共同参与当前时刻的字符预测,增强了语义信息和视觉信息的相关性。多头注意力机制设计能够捕捉特征的显著性信息和辅助信息,使得场景文本识别结果准确率较高。
-
公开(公告)号:CN111881957B
公开(公告)日:2022-09-23
申请号:CN202010683490.5
申请日:2020-07-15
Applicant: 中国科学院自动化研究所 , 国网江西省电力有限公司
IPC: G06V10/774 , G06V10/776 , G06N3/04
Abstract: 本发明属于领域,具体涉及了一种基于信息导向注意力网络的图像识别方法,旨在解决的问题。本发明包括:获取输入图像,通过信息导向的注意力网络计算输入图像的特征向量,计算特征向量和信息导向的注意力网络中的原型表征之间的距离,选取特征向量距离最近的类别得到图像的分类结果。本发明解决了现有的图像识别技术中训练神经网络严重依赖数据规模的缺陷,通过将标注数据和未标注数据组织在一起并对他们之间的关系进行建模,可以抽取更具代表性的特征,解决了现有图像识别技术所用人工神经网络需要大量有标注的训练数据才能满足使用性能需求的缺陷。
-
公开(公告)号:CN111881957A
公开(公告)日:2020-11-03
申请号:CN202010683490.5
申请日:2020-07-15
Applicant: 中国科学院自动化研究所 , 国网江西省电力有限公司
Abstract: 本发明属于领域,具体涉及了一种基于信息导向注意力网络的图像识别方法,旨在解决的问题。本发明包括:获取输入图像,通过信息导向的注意力网络计算输入图像的特征向量,计算特征向量和信息导向的注意力网络中的原型表征之间的距离,选取特征向量距离最近的类别得到图像的分类结果。本发明解决了现有的图像识别技术中训练神经网络严重依赖数据规模的缺陷,通过将标注数据和未标注数据组织在一起并对他们之间的关系进行建模,可以抽取更具代表性的特征,解决了现有图像识别技术所用人工神经网络需要大量有标注的训练数据才能满足使用性能需求的缺陷。
-
公开(公告)号:CN111881954A
公开(公告)日:2020-11-03
申请号:CN202010679785.5
申请日:2020-07-15
Applicant: 中国科学院自动化研究所 , 国网江西省电力有限公司
Abstract: 本发明属于计算机视觉、模式识别和神经网络技术领域,具体涉及一种基于渐进式簇净化网络的转导推理小样本分类方法、系统、装置,旨在解决现有基于小样本学习的分类方法忽略了测试样本的作用,导致分类精度、鲁棒性较差的问题。本系统方法包括:获取第一数据集、第二数据集;提取第一数据集、第二数据集中图像的特征,对第二数据集不同类别的图像特征求均值,作为各类别的特征初始值;通过分类模型对第一数据集中的图像分类;第一数据集中重分类的各图像的正得分;第一数据集中重分类的各图像的负得分;通过预设的第一方法对特征初始值进行更新;循环判断。本发明提高了分类的精度、鲁棒性。
-
公开(公告)号:CN115966017A
公开(公告)日:2023-04-14
申请号:CN202211652169.6
申请日:2022-12-21
Applicant: 中国科学院自动化研究所
IPC: G06V40/20 , G06V20/40 , G06V10/764 , G06V10/80 , G06V10/82 , G06V10/10 , G06N3/048 , G06N3/0464 , G06N3/0442 , G06N3/047 , G06N3/08
Abstract: 本发明提供一种行为识别方法及装置,包括:获取待识别视频的待识别视频帧序列和待识别骨架关键点坐标序列;将所述待识别视频帧序列和所述待识别骨架关键点坐标序列输入行为识别模型,得到所述待识别视频的行为类别。本发明解决了现有技术中行为识别的数据来源单一导致识别精度受限的缺陷,通过将人体骨架坐标以及RGB视频同时输入行为识别模型,对行为视频进行精确的动作识别。
-
-
-
-
-
-
-
-
-