基于离散曲线演化的骨架剪枝方法

    公开(公告)号:CN101140660A

    公开(公告)日:2008-03-12

    申请号:CN200710053534.0

    申请日:2007-10-11

    IPC分类号: G06T5/00

    摘要: 本发明公开了一种基于离散曲线演化的骨架剪枝方法,属于图像处理技术领域。二值图像骨架化方法得到的骨架都受制于对边界噪声的敏感性,限制了骨架在图像处理领域中的应用。本发明利用离散曲线演化求出图像的轮廓分割,删除生成点在同一轮廓分割上的骨架点,达到删除由边缘噪声引起的冗余骨架分支而保持视觉上重要骨架分枝的目的。本发明综合考虑了物体的全局信息,剪枝后的骨架非常稳定;能保持骨架的拓扑不变性;可以彻底删除不必要的骨架分枝,而避免重要的骨架分枝被缩短;本发明时间复杂度低,且可实现对骨架的多尺度剪枝。本发明在医学图像分析、物体识别、零件检测、三维建模、计算机辅助设计等方向有着潜在的应用。

    一种基于DETR结构的三维目标检测方法、装置及系统

    公开(公告)号:CN118823735A

    公开(公告)日:2024-10-22

    申请号:CN202410903974.4

    申请日:2024-07-08

    发明人: 白翔 刘哲 侯京华

    摘要: 本发明涉及一种基于DETR结构的三维目标检测方法、装置及系统。其方法部分主要包括:通过三维骨干网络提取输入点云的鸟瞰图特征,并基于鸟瞰图特征使用双重查询选择模块获取初始检测查询;在解码器中通过可变形格点注意力来进行查询与鸟瞰图特征的交互,得到增强后的查询特征,基于增强后的查询特征,通过多层前馈网络进行三维目标检测结果的预测;基于预测的检测结果,通过在DETR结构的三维检测器训练时匈牙利匹配的分类代价中引入回归框质量评价,来进一步提升三维检测器的检测效果。本发明最终可以取得相比于非DETR结构检测器更加优秀的三维目标检测性能。

    基于深度学习的多语种马赛克图像文本识别方法

    公开(公告)号:CN116682120A

    公开(公告)日:2023-09-01

    申请号:CN202310524256.1

    申请日:2023-05-08

    摘要: 本发明受人类视觉皮层观察‑练习‑完善的识别过程,提出了一种马赛克文字识别方法:采用合成数据以及公开基准数据集构造原始图像‑马赛克图像数据对;首先将马赛克图像数据送入“观察”模块的图像编码器中层次化提取特征;然后通过重建模块对图像初步恢复;受掩码自回归编码器的启发使用自监督学习来模仿人类的“练习”过程,由视觉自注意力模块预测像素值;最后“完善”模块的去噪扩散概率模型训练U型神经网络预测每一步的噪声实现迭代优化;通过反向传播优化权重参数;由开源识别网络或云服务API识别字符序列。本发明为多语种马赛克文本图像识别难题贡献了一种思路和可行方案。

    基于可插拔模块的深度学习语音辅助文字识别方法与装置

    公开(公告)号:CN116434732A

    公开(公告)日:2023-07-14

    申请号:CN202310111405.1

    申请日:2023-02-07

    摘要: 本发明提出了一种基于可插拔模块的深度学习语音辅助文字识别方法:使用公开合成文本数据集作为图片训练数据,并提取出标签作为语料库,使用语音合成工具配对生成一定数量的语音数据;将图片‑语音数据送入识别网络中,分别得到图像特征和语音特征;将图像特征送入识别解码器,输出预测的字符序列;将可插拔模块接入场景文字识别网络,图像特征和语音特征经过可插拔模块中的语音解码器得到频谱特征;识别网络计算识别损失,可插拔模块计算语音频谱损失,反向传播优化识别网络权重参数;将可插拔模块拔出,由识别网络完成场景文字图像的识别。本发明使用语音信息以指导现有的场景文本识别网络,使其可以很容易的应用于现有的场景文字识别网络。

    基于在线增强检测的视频文字目标追踪方法与电子设备

    公开(公告)号:CN111931571B

    公开(公告)日:2022-05-17

    申请号:CN202010643270.X

    申请日:2020-07-07

    摘要: 本发明公开了一种基于在线增强检测的视频文字目标追踪方法:逐帧输入视频图片;使用文字目标检测与特征提取网络进行文字目标的定位与特征提取,获取文字目标位置和包含语义信息和空间背景信息的特征向量,使特征向量对于不同身份的文字目标有很强的区分度;利用文字位置距离、文字形态距离、文字特征距离进行帧与帧之间文字目标的匹配,通过匈牙利算法获取文字目标匹配结果,匹配成功的文字目标赋予相同的身份;建立在线增强检测机制,使用基于孪生网络的跟踪器对先前帧中未匹配成功的文字目标预测其在当前帧的位置,同时基于此预测结果增强当前视频帧文字目标检测结果;根据视频图片帧中检测到的文字目标身份,确定所有文字目标的运动轨迹。

    一种结合全局和局部信息的场景文本图像的语种识别方法

    公开(公告)号:CN110334705B

    公开(公告)日:2021-08-03

    申请号:CN201910553486.4

    申请日:2019-06-25

    摘要: 本发明公开了一种结合全局和局部信息的场景文本图像的语种识别方法。通过提取文字图像的基本特征,随后分别提取全局和局部特征表示;全局提取分支使用全局最大池化将整图表示为一个向量,并做类别得分预测;局部聚合分支对图像的局部块分别做概率预测,然后将这一系列概率分布结合起来得到局部层面的类别预测得分;最后根据上述分支预测情况动态融合全局和局部的预测得分,得到最终识别结果。该方法同时注意到文字图像的整体特征和局部有区分性的特征,并且可以实现一步到位端到端训练。本发明相对于现有利用局部特征的技术,能够准确提取局部的有区分性的特征,在准确度、运行效率和通用性方面都取得了卓越效果,有很强的实际应用价值。

    一种模型训练的方法以及装置
    99.
    发明公开

    公开(公告)号:CN113011428A

    公开(公告)日:2021-06-22

    申请号:CN202110289276.6

    申请日:2021-03-18

    IPC分类号: G06K9/34 G06K9/32 G06K9/62

    摘要: 本说明书公开了一种模型训练的方法以及装置,获取各待标注图像,针对每个待标注图像,将该待标注图像输入到待训练的文字行识别模型中,得到文字行识别结果,以及将该待标注图像输入到预设的单字识别模型中,得到单字识别结果。而后,根据单字识别结果,对文字行识别结果进行校正,得到校正后文字行识别结果。最后,根据校正后文字行识别结果,对该待标注图像进行标注,得到标注后图像,通过标注后图像,对待训练的文字行识别模型进行模型训练。本方法将单字识别结果和文字行识别结果进行结合,可以有效的提高数据标注的准确性,从而使得文字行识别模型的准确率提高。

    一种基于非对称空洞卷积的快速可行域分割方法

    公开(公告)号:CN112634289A

    公开(公告)日:2021-04-09

    申请号:CN202011585360.4

    申请日:2020-12-28

    摘要: 本发明公开了一种基于非对称空洞卷积的快速可行域分割方法:对单目相机采集的图像进行多尺度图像特征提取,在最后一个卷积块使用非对称空洞卷积块消除局部噪声,获得具有区分力的表征;特征解码模块对特征编码器提取的多尺度图像特征进行逐点融合,得到高分辨率的高区分力的图像特征图;采用分类器基于融合后的图像特征,预测输出图像场景中的可行域分割结果,将图像中的所有像素划分为可行驶区域和不可行驶区域两类。本发明引入了一种全新的非对称空洞卷积模块来提高特征的区分力,大幅减少对不可行驶道路的误判,并且没有引入额外的计算量。基于轻量化的模块和网络设计,在保证精度的前提下,实现了对可行域的快速分割。