一种基于部件拆分的零样本汉字识别方法

    公开(公告)号:CN115512357A

    公开(公告)日:2022-12-23

    申请号:CN202211142256.7

    申请日:2022-09-20

    申请人: 同济大学

    IPC分类号: G06V30/148 G06V30/19

    摘要: 一种基于部件拆分的零样本汉字识别方法,首先,构造数据集‘汉字数据集’以及‘原型数据集’:本发明从中国科学院自动化研究所脱机手写样本数据库CASIA‑HWDB数据集中的每一类汉字里挑选一张汉字图片组成‘原型数据集’,并将CASIA‑HWDB数据集中剩下的部分作为‘汉字数据集’,并按照8:1:1的比例将其分成训练集,验证集和测试集。最后,构建汉字识别模型:该模型拥有‘汉字编码器’、‘特征解码器’以及‘序列转换器’这三个结构。其主要意义在于:识别人们不认识的生僻汉字,并获取其语义信息;再者,摆脱传统数据集受限于大量样本均衡,生僻字数据集无法获取的局限性;最后,先拆分后识别的模型架构大幅提升模型的训练效率,同时识别的准确性得以保障。