一种医疗票据图像结构化方法和装置、计算机可读介质
摘要:
本发明公开一种基于均值聚类和字符识别的医疗票据图像结构化方法和装置、计算机可读介质,包括:步骤1、对获取的医疗票据图像进行OCR字符识别,得到票据全文字符串信息;步骤S2、对所述票据全文字符串信息进行KMeans聚类;步骤S3、根据聚类结果确定标题位置,根据所述标题位置信息,提取对应列所在的条目数据;步骤S4、对所述条目数据进行合法性校验和修正,得到所述医疗票据的结构化数据。采用本发明的技术方案,可以大幅度提高票据结构化效果。
0/0