-
公开(公告)号:CN113920296B
公开(公告)日:2022-07-15
申请号:CN202111395021.4
申请日:2021-11-23
申请人: 厦门市美亚柏科信息股份有限公司
摘要: 本发明给出了一种基于对比学习的文本识别方法与系统,包括无标签的文本图像样本,对其中每个样本进行数据增强输入卷积网络进行识别训练生成识别模型,再基于所述识别模型构建基本编码器来计算并输出特征序列;将所述特征序列输入实例映射函数生成对应的实例再映射为多个子实例,将所有的子实例作为对比损失函数中的子元素进行对比学习,将结果反馈到所述卷积网络用于更新所述卷积网络;获取包含文本信息的有标签的文本图像样本输入所述基本编码器,对所述卷积网络的参数进行调节直到所述识别模型收敛。本方法将对比学习应用于序列的各个元素,充分利用无标注数据学习有效的表征信息,再基于自监督对比学习的方法进行建模,显著提高了识别效果。
-
公开(公告)号:CN114445436A
公开(公告)日:2022-05-06
申请号:CN202111628161.1
申请日:2021-12-28
申请人: 厦门市美亚柏科信息股份有限公司
摘要: 本发明公开了一种目标检测的方法、装置以及存储介质。所述方法包括:获取待检测图像;对待检测图像进行边缘检测处理,得到第一图像;通过预设的特征提取网络对待检测图像进行处理,得到待检测图像的第二图像,使用第一图像对第二图像进行处理,增强第二图像的边缘特征;预设的特征提取网络包含特征降噪模块,使用特征降噪模块对增强边缘特征的第二图像进行降噪处理;使用预设的特征提取网络对降噪处理后的第二图像进行处理,得到图像特征,将图像特征输入预设的目标检测网络,得到目标类别和目标框。本发明提供的一种目标检测的方法和装置,能够提升基于深度学习神经网络的特征提取网络的特征提取能力,以及目标检测网络的目标检测能力。
-
公开(公告)号:CN112348015A
公开(公告)日:2021-02-09
申请号:CN202011238231.8
申请日:2020-11-09
申请人: 厦门市美亚柏科信息股份有限公司
摘要: 本发明公开了一种基于级联神经网络的文字检测方法、装置及存储介质,该方法通过收集样本,并对样本进行处理生成数据集;搭建第一全卷积网络,通过数据集对第一全卷积网络进行训练至网络收敛,并通过训练后的第一全卷积网络对数据集进行推理,获得回归结果;搭建第二全卷积网络,通过回归结果对第二全卷积网络进行训练至网络收敛;将待验证图片输入第一全卷积网络,若第一全卷积网络判断在滑窗范围内存在文字,则裁剪下滑窗范围内的区域做双线性插值尺度变换并输入第二全卷积网络,通过第二全卷积网络判断区域是否为文字区域。该方法具有更好的泛化性能,并能够在保证检测准确率与召回率的同时,降低模型大小,从而提升文字检测算法性能。
-
公开(公告)号:CN114078119A
公开(公告)日:2022-02-22
申请号:CN202111372017.6
申请日:2021-11-18
申请人: 厦门市美亚柏科信息股份有限公司
摘要: 公开了一种基于光流法的深度伪造视频检测方法和系统,包括收集经过不同方式篡改后的深度伪造视频和原始视频分别构建训练集和验证集;对训练集和验证集中的视频进行抽帧处理获得每个视频的每帧图像,利用光流计算模型提取光流特征;按时序分别对每帧图像和光流特征进行拼接,并输入神经网络模型训练至损失收敛;对待验证视频进行上述步骤中抽帧处理、光流计算和图像拼接,并取部分图像送入神经网络模型,将获取到的输出通过神经网络的激活函数获得输出结果均值,若输出结果均值不小于预设阈值,则待验证视频为深度伪造视频。本发明能够降低深度伪造检测算法对前置算法的强依赖性,同时能够有效的对多种深度伪造视频进行检测,提升算法泛化能力。
-
公开(公告)号:CN112348015B
公开(公告)日:2022-11-18
申请号:CN202011238231.8
申请日:2020-11-09
申请人: 厦门市美亚柏科信息股份有限公司
IPC分类号: G06V20/62 , G06V10/22 , G06V10/774 , G06V10/764 , G06V10/82 , G06N3/04 , G06N3/08 , G06N5/04
摘要: 本发明公开了一种基于级联神经网络的文字检测方法、装置及存储介质,该方法通过收集样本,并对样本进行处理生成数据集;搭建第一全卷积网络,通过数据集对第一全卷积网络进行训练至网络收敛,并通过训练后的第一全卷积网络对数据集进行推理,获得回归结果;搭建第二全卷积网络,通过回归结果对第二全卷积网络进行训练至网络收敛;将待验证图片输入第一全卷积网络,若第一全卷积网络判断在滑窗范围内存在文字,则裁剪下滑窗范围内的区域做双线性插值尺度变换并输入第二全卷积网络,通过第二全卷积网络判断区域是否为文字区域。该方法具有更好的泛化性能,并能够在保证检测准确率与召回率的同时,降低模型大小,从而提升文字检测算法性能。
-
公开(公告)号:CN113807392B
公开(公告)日:2022-09-16
申请号:CN202110896904.7
申请日:2021-08-05
申请人: 厦门市美亚柏科信息股份有限公司
IPC分类号: G06V10/764 , G06V10/80 , G06V10/774 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
摘要: 本发明涉及一种基于多预处理特征融合的篡改图像鉴别方法,其可包括以下步骤:S1、收集样本,构建训练集与验证集;S2、搭建多预处理特征提取模块;S3、将训练集中的每一张图像通过多预处理特征提取模块处理得到相应特征,并对同一张图像获取到的特征以通道维度合并,形成该图像的特征张量;S4、将特征张量输入神经网络模型进行训练直到损失收敛;S5、将验证集输入训练好的神经网络模型,获取输出结果,若输出结果大于预设阈值,则判定该图像为篡改图像。本发明通过提前提取先验特征的方式,使得模型更容易拟合到相关特征,更易于训练,能够实现对多种篡改方式进行同时鉴别。
-
公开(公告)号:CN113807337B
公开(公告)日:2022-09-06
申请号:CN202110940583.6
申请日:2021-08-17
申请人: 厦门市美亚柏科信息股份有限公司
IPC分类号: G06V30/16 , G06V30/148 , G06V30/19
摘要: 本发明涉及一种基于图连通的文本检测方法、终端设备及存储介质,该方法中包括:S1:采集具有单字符文本标注的图像组成训练集;S2:构建文字检测模型,通过训练集对模型进行训练;S3:将待处理图像输入训练后的文字检测模型中,剔除置信度较低的预测文本框后,将其他预测文本框组成集合B;S4:计算集合B中每两个预测文本框之间的第一参数GIoU和第二参数DHIoU;S5:将集合B中所有的预测文本框作为图节点构建无向图,若两节点之间满足GIoU小于第一阈值且DHIoU小于第二阈值,则设定两节点之间连通,否则不连通;S6:计算无向图的连通分量,并计算每个连通分量所包含节点的最小外接矩形,将最小外接矩形作为文本框。本发明能够快速的准确进行文本区域定位。
-
公开(公告)号:CN113807337A
公开(公告)日:2021-12-17
申请号:CN202110940583.6
申请日:2021-08-17
申请人: 厦门市美亚柏科信息股份有限公司
摘要: 本发明涉及一种基于图连通的文本检测方法、终端设备及存储介质,该方法中包括:S1:采集具有单字符文本标注的图像组成训练集;S2:构建文字检测模型,通过训练集对模型进行训练;S3:将待处理图像输入训练后的文字检测模型中,剔除置信度较低的预测文本框后,将其他预测文本框组成集合B;S4:计算集合B中每两个预测文本框之间的第一参数GIoU和第二参数DHIoU;S5:将集合B中所有的预测文本框作为图节点构建无向图,若两节点之间满足GIoU小于第一阈值且DHIoU小于第二阈值,则设定两节点之间连通,否则不连通;S6:计算无向图的连通分量,并计算每个连通分量所包含节点的最小外接矩形,将最小外接矩形作为文本框。本发明能够快速的准确进行文本区域定位。
-
公开(公告)号:CN112381086A
公开(公告)日:2021-02-19
申请号:CN202011229081.4
申请日:2020-11-06
申请人: 厦门市美亚柏科信息股份有限公司
摘要: 本发明涉及一种结构化输出图像文字识别结果的方法及装置,该方法包括以下步骤:S1.利用光学字符识别算法(OCR)获取检测框位置信息;S2.构建带标注的关键字段数据集,其中,关键字段为待获取的信息类别;S3.设定锚定字段;S4.特征向量构建,将相对位置信息和相对宽高比用于特征向量生成;S5.训练优化分类器,用生成的特征向量对机器学习分类器进行训练和优化;S6.检测框分类,使用训练优化后的机器学习分类器对待识别图像的文字区域的检测框进行分类;S7.识别并输出结构化结果,具体地,识别检测框内的文字,并对识别后的文字进行关键信息匹配,将版式相近的文字字段校正输出,最终输出结构化结果数据。
-
公开(公告)号:CN114445851B
公开(公告)日:2024-09-24
申请号:CN202111533341.1
申请日:2021-12-15
申请人: 厦门市美亚柏科信息股份有限公司
IPC分类号: G06V40/10 , G06V20/40 , G06N3/0464 , G06V10/82 , G06V10/46 , G06V10/774
摘要: 本发明涉及基于视频的谈话场景异常检测方法、终端设备及存储介质,该方法中包括:S1:提取谈话人画面图像、被谈话人画面图像和全景画面图像;S2:检测全景画面图像中人数,并判断其与实际总人数的大小关系,如果大于,则发送围观异常的提醒;如果小于,则进入S3进行人员是否离位判断;如果等于,则进入S4进行人员是否肢体接触的判断。本发明可以对谈话视频中出现的人员离位、人员围观、人员接触等不合规行为进行检测,达到相对智能化的谈话视频违规检测的目的。
-
-
-
-
-
-
-
-
-