专利检索 ap:("成都快眼科技有限公司") AND inv:"何书航" 第 1 页

1.

发明公开
一种基于文本行匹配的跨图文本阅读方法有权

公开(公告)号：CN113342997A

公开(公告)日：2021-09-03

申请号：CN202110538489.8

申请日：2021-05-18

申请人： 成都快眼科技有限公司

发明人： 李宏亮 , 戴禹 , 李宏瑞 , 何书航

IPC分类号： G06F16/38 , G06N3/04

摘要： 本发明提供一种基于文本行匹配的跨图文本阅读方法，包括：步骤10，获取输入的两张文本图像；步骤20，提取出文本行位置，过滤不可读文本行并进行特征提取，得到文本行特征；步骤30，获得文本行匹配结果：步骤31，将文本行位置和文本行特征进行特征编码得到节点特征；步骤32，对节点特征进行自优化和交叉优化得到优化后的节点特征；步骤33，利用优化后的节点特征计算打分矩阵，得到文本行匹配结果；步骤4，根据文本行匹配结果拼接文本行特征，并提取出对应文本得到文本识别结果；步骤5，融合文本识别结果，得到文本阅读结果。本发明能够充分利用文本的先验信息，在文本行级别上完成跨图文本阅读任务，取得了比像素级合并和阅读方法更好的效果。

2.

发明公开
一种基于多维关系对齐的无监督视觉表征学习的图像分类方法有权

公开(公告)号：CN113344069A

公开(公告)日：2021-09-03

申请号：CN202110606700.5

申请日：2021-05-31

申请人： 成都快眼科技有限公司

发明人： 李宏亮 , 程浩洋 , 邓小玲 , 何书航

IPC分类号： G06K9/62 , G06N3/04 , G06N3/08

摘要： 本发明提供一种基于多维关系对齐的无监督视觉表征学习的图像分类方法，包括：步骤1，获取预训练图像数据以及增广视图；步骤2，构建包括在线编码器和离线编码器的双分支网络，将增广视图分别输入在线编码器和离线编码器得到特征以及负样本；步骤3，定义增广视图的特征与负样本的关系矩阵，并采用交叉对齐策略构建关系对齐损失；步骤4，设计多维关系对齐损失并进行无监督预训练；步骤5，通过添加分类器构成图像分类网络；步骤6，微调图像分类网络；步骤7，利用微调后的图像分类网络执行图像分类任务。本发明将关系对齐作为无监督视觉表征学习的核心，其在不引入任何不可靠约束的情况下，深入探索了样本之间的相似度关系。

3.

发明授权
一种基于多维关系对齐的无监督视觉表征学习的图像分类方法有权

公开(公告)号：CN113344069B

公开(公告)日：2023-01-24

申请号：CN202110606700.5

申请日：2021-05-31

申请人： 成都快眼科技有限公司

发明人： 李宏亮 , 程浩洋 , 邓小玲 , 何书航

IPC分类号： G06V10/764 , G06V10/774 , G06V10/82 , G06N3/04 , G06N3/08

摘要： 本发明提供一种基于多维关系对齐的无监督视觉表征学习的图像分类方法，包括：步骤1，获取预训练图像数据以及增广视图；步骤2，构建包括在线编码器和离线编码器的双分支网络，将增广视图分别输入在线编码器和离线编码器得到特征以及负样本；步骤3，定义增广视图的特征与负样本的关系矩阵，并采用交叉对齐策略构建关系对齐损失；步骤4，设计多维关系对齐损失并进行无监督预训练；步骤5，通过添加分类器构成图像分类网络；步骤6，微调图像分类网络；步骤7，利用微调后的图像分类网络执行图像分类任务。本发明将关系对齐作为无监督视觉表征学习的核心，其在不引入任何不可靠约束的情况下，深入探索了样本之间的相似度关系。

4.

发明授权
一种基于文本行匹配的跨图文本阅读方法有权

公开(公告)号：CN113342997B

公开(公告)日：2022-11-11

申请号：CN202110538489.8

申请日：2021-05-18

申请人： 成都快眼科技有限公司

发明人： 李宏亮 , 戴禹 , 李宏瑞 , 何书航

IPC分类号： G06F16/38 , G06N3/04

摘要： 本发明提供一种基于文本行匹配的跨图文本阅读方法，包括：步骤10，获取输入的两张文本图像；步骤20，提取出文本行位置，过滤不可读文本行并进行特征提取，得到文本行特征；步骤30，获得文本行匹配结果：步骤31，将文本行位置和文本行特征进行特征编码得到节点特征；步骤32，对节点特征进行自优化和交叉优化得到优化后的节点特征；步骤33，利用优化后的节点特征计算打分矩阵，得到文本行匹配结果；步骤4，根据文本行匹配结果拼接文本行特征，并提取出对应文本得到文本识别结果；步骤5，融合文本识别结果，得到文本阅读结果。本发明能够充分利用文本的先验信息，在文本行级别上完成跨图文本阅读任务，取得了比像素级合并和阅读方法更好的效果。