- 专利标题: 一种医药文档结构化内容分析方法、系统和存储介质
-
申请号: CN202110173633.2申请日: 2021-02-06
-
公开(公告)号: CN112528602B公开(公告)日: 2021-05-04
- 发明人: 杜懂理 , 林加旗 , 魏巍 , 包卿
- 申请人: 浙江明度智控科技有限公司
- 申请人地址: 浙江省杭州市滨江区长河街道江虹南路316号3号楼1层
- 专利权人: 浙江明度智控科技有限公司
- 当前专利权人: 明度智云(浙江)科技有限公司
- 当前专利权人地址: 浙江省杭州市滨江区长河街道江虹南路316号3号楼1层
- 代理机构: 杭州合谱慧知识产权代理事务所
- 代理商 张刚
- 优先权: 2020107399499 20200728 CN
- 主分类号: G06F40/151
- IPC分类号: G06F40/151 ; G06F40/143 ; G06F40/166
摘要:
本发明公开了一种医药文档结构化内容分析方法,包括如下步骤:将不同格式的电子文档转化为统一文档格式,按OpenXML标准对文档进行识别,对各文档内部包括但不限于页头、页尾和图片进行提取;将提取出到的页头、页尾和图片XML资源转换添加至HTML预览文件,并在标题列表、段落和表格前分别添加第一标签、第二标签和第三标签;根据生成的HTML预览文件,按第二标签来提取每段内容并过滤掉HTML标签生成文本内容;将所述结构化数据存储至数据库,根据输入的检索文本确认位置关联标签组,并根据所述位置关联标签组展现对应的HTML预览页面内容。通过对电子文档结构化解析后,不仅可以利用数据库的搜索能力,还能更好的对上下文内容进行隔离,准确缩小搜索范围。
公开/授权文献
- CN112528602A 一种医药文档结构化内容分析方法、系统和存储介质 公开/授权日:2021-03-19