一种基于文本选取模型的无监督文本定位方法

发明授权

CN108664968B 一种基于文本选取模型的无监督文本定位方法有权转让

请登陆查看更多内容

专利标题： 一种基于文本选取模型的无监督文本定位方法
申请号： CN201810349292.8

申请日： 2018-04-18
公开(公告)号： CN108664968B

公开(公告)日： 2020-07-07
发明人: 孔军 , 孙金花 , 蒋敏 , 侯健
申请人： 江南大学
申请人地址： 江苏省无锡市蠡湖大道1800号
专利权人： 江南大学
当前专利权人： 慧镕电子系统工程股份有限公司
当前专利权人地址： 201613 上海市松江区中辰路299号3幢302室
代理机构： 哈尔滨市阳光惠远知识产权代理有限公司
代理商 林娟
主分类号： G06K9/32
IPC分类号： G06K9/32 ; G06K9/34 ; G06K9/62 ; G06K9/46

摘要：

本发明公开了一种基于文本选取模型的无监督文本定位方法。本发明通过SLIC和DBSCAN图像分割生成若干个超像素，并创新地将超像素区域作为文本候选区域，解决了候选区域在数量和精度上的平衡；其次，本发明利用同一张图中文本对象之间的相似性建立文本选取模型，生成样本参考图，其中，样本参考图包括强文本图和非文本图，并以样本参考图为依据，通过双阈值机制自适应地提取以超像素为单位的文本样本，避免了传统算法对于数据库的依赖性；最后，通过文本样本训练得到文本分类器并对超像素区域进行文本/非文本分类；该方法召回率高，避免了传统算法中依赖数据库、通用性较差、候选区域数量爆炸的问题，实现了无监督的文本定位目标。

公开/授权文献

CN108664968A 一种基于文本选取模型的无监督文本定位方法公开/授权日：2018-10-16

信息查询

中国专利公布公告

审查信息

Global Dossier

Espacenet