-
公开(公告)号:CN117933196A
公开(公告)日:2024-04-26
申请号:CN202410118665.6
申请日:2024-01-29
申请人: 浙江金汇数字技术有限公司
IPC分类号: G06F40/154 , G06F40/14 , G06F40/103 , G06F40/186 , G06F40/258 , G06F16/84
摘要: 本发明公开了一种WORD转数据库字段的通用方法,包括如下步骤:步骤一,使用Aspose技术将WORD格式的文件转为HTML格式;步骤二,识别步骤一转为的HTML格式文件所标记的标题和内容,并对标题做层级区分;步骤三,基于步骤二所区分的层级解析文件得到以下字段:序号、目录层级、内容带标签、内容不带标签;步骤四,从上倒下循环将步骤三分析得到的字段再次解析分类,按文档的写作格式分类;步骤五,基于步骤四解析分类的内容建立存储数据库字段模板库;步骤六,根据步骤五建立的模板库解析WORD内容并存入数据库。本发明的WORD转数据库字段的通用方法,通过步骤一至步骤六的设置,便可有效的实现转换WORD格式的文件解析后存入数据库内。