- 专利标题: 一种图像文字信息提取方法、系统及存储介质
-
申请号: CN202110969030.3申请日: 2021-08-23
-
公开(公告)号: CN113673205B公开(公告)日: 2023-01-13
- 发明人: 张茵翠 , 陈冠胜 , 魏子力 , 冯歆尧 , 吴梦维 , 陈涛
- 申请人: 广东电网有限责任公司(CN) , 广东电网有限责任公司肇庆供电局(CN)
- 申请人地址: 广东省广州市越秀区东风东路757号;
- 专利权人: 广东电网有限责任公司(CN),广东电网有限责任公司肇庆供电局(CN)
- 当前专利权人: 广东电网有限责任公司(CN),广东电网有限责任公司肇庆供电局(CN)
- 当前专利权人地址: 广东省广州市越秀区东风东路757号;
- 代理机构: 北京集佳知识产权代理有限公司
- 代理商 彭东威
- 主分类号: G06F40/151
- IPC分类号: G06F40/151 ; G06F40/216 ; G06F40/284 ; G06F40/289 ; G06V10/74 ; G06V30/19
摘要:
本申请公开了一种图像文字信息提取方法、系统及存储介质,其方法通过对图文数据集进行文本转换后,得到文本数据,通过对文本数据进行分词,计算各个词组与预设的主题特征词库中的各个主题特征词的相似度,将相似度大于预设相似度的词组作为关键特征词,从而过滤掉偏离主题的文本数据,同时,通过对关键特征词赋予权重将所有词组划分为热词和非热词,根据非热词的数量过滤非关键图文数据,并对非关键图文数据,以缩小非关键图文数据的容量,降低其图像文字提取的进程的占用空间,同时,通过对关键图文数据中的热词进行候选框标注,调用图形文字信息提取模型提取候选框标注内的热词,从而可以提高图像文字信息提取效率和准确度。
公开/授权文献
- CN113673205A 一种图像文字信息提取方法、系统及存储介质 公开/授权日:2021-11-19