发明授权
- 专利标题: 一种基于文本选取模型的无监督文本定位方法
-
申请号: CN201810349292.8申请日: 2018-04-18
-
公开(公告)号: CN108664968B公开(公告)日: 2020-07-07
- 发明人: 孔军 , 孙金花 , 蒋敏 , 侯健
- 申请人: 江南大学
- 申请人地址: 江苏省无锡市蠡湖大道1800号
- 专利权人: 江南大学
- 当前专利权人: 慧镕电子系统工程股份有限公司
- 当前专利权人地址: 201613 上海市松江区中辰路299号3幢302室
- 代理机构: 哈尔滨市阳光惠远知识产权代理有限公司
- 代理商 林娟
- 主分类号: G06K9/32
- IPC分类号: G06K9/32 ; G06K9/34 ; G06K9/62 ; G06K9/46
摘要:
本发明公开了一种基于文本选取模型的无监督文本定位方法。本发明通过SLIC和DBSCAN图像分割生成若干个超像素,并创新地将超像素区域作为文本候选区域,解决了候选区域在数量和精度上的平衡;其次,本发明利用同一张图中文本对象之间的相似性建立文本选取模型,生成样本参考图,其中,样本参考图包括强文本图和非文本图,并以样本参考图为依据,通过双阈值机制自适应地提取以超像素为单位的文本样本,避免了传统算法对于数据库的依赖性;最后,通过文本样本训练得到文本分类器并对超像素区域进行文本/非文本分类;该方法召回率高,避免了传统算法中依赖数据库、通用性较差、候选区域数量爆炸的问题,实现了无监督的文本定位目标。
公开/授权文献
- CN108664968A 一种基于文本选取模型的无监督文本定位方法 公开/授权日:2018-10-16