专利检索 ap:("同济大学") AND inv:"张琦磊" 第 1 页

1.

发明公开
一种基于部件拆分的零样本汉字识别方法审中-实审

公开(公告)号：CN115512357A

公开(公告)日：2022-12-23

申请号：CN202211142256.7

申请日：2022-09-20

申请人： 同济大学

发明人： 叶晨 , 张琦磊 , 杜承豪 , 王彧飞

IPC分类号： G06V30/148 , G06V30/19

摘要： 一种基于部件拆分的零样本汉字识别方法，首先，构造数据集‘汉字数据集’以及‘原型数据集’：本发明从中国科学院自动化研究所脱机手写样本数据库CASIA‑HWDB数据集中的每一类汉字里挑选一张汉字图片组成‘原型数据集’，并将CASIA‑HWDB数据集中剩下的部分作为‘汉字数据集’，并按照8：1：1的比例将其分成训练集，验证集和测试集。最后，构建汉字识别模型：该模型拥有‘汉字编码器’、‘特征解码器’以及‘序列转换器’这三个结构。其主要意义在于：识别人们不认识的生僻汉字，并获取其语义信息；再者，摆脱传统数据集受限于大量样本均衡，生僻字数据集无法获取的局限性；最后，先拆分后识别的模型架构大幅提升模型的训练效率，同时识别的准确性得以保障。