一种医药文档结构化内容分析方法、系统和存储介质
摘要:
本发明公开了一种医药文档结构化内容分析方法,包括如下步骤:将不同格式的电子文档转化为统一文档格式,按OpenXML标准对文档进行识别,对各文档内部包括但不限于页头、页尾和图片进行提取;将提取出到的页头、页尾和图片XML资源转换添加至HTML预览文件,并在标题列表、段落和表格前分别添加第一标签、第二标签和第三标签;根据生成的HTML预览文件,按第二标签来提取每段内容并过滤掉HTML标签生成文本内容;将所述结构化数据存储至数据库,根据输入的检索文本确认位置关联标签组,并根据所述位置关联标签组展现对应的HTML预览页面内容。通过对电子文档结构化解析后,不仅可以利用数据库的搜索能力,还能更好的对上下文内容进行隔离,准确缩小搜索范围。
0/0