一种图像文字信息提取方法、系统及存储介质

    公开(公告)号:CN113673205A

    公开(公告)日:2021-11-19

    申请号:CN202110969030.3

    申请日:2021-08-23

    摘要: 本申请公开了一种图像文字信息提取方法、系统及存储介质,其方法通过对图文数据集进行文本转换后,得到文本数据,通过对文本数据进行分词,计算各个词组与预设的主题特征词库中的各个主题特征词的相似度,将相似度大于预设相似度的词组作为关键特征词,从而过滤掉偏离主题的文本数据,同时,通过对关键特征词赋予权重将所有词组划分为热词和非热词,根据非热词的数量过滤非关键图文数据,并对非关键图文数据,以缩小非关键图文数据的容量,降低其图像文字提取的进程的占用空间,同时,通过对关键图文数据中的热词进行候选框标注,调用图形文字信息提取模型提取候选框标注内的热词,从而可以提高图像文字信息提取效率和准确度。