- 专利标题: 基于预训练语言模型的医疗病历数据分割方法和系统
-
申请号: CN202310658805.4申请日: 2023-06-06
-
公开(公告)号: CN116386800B公开(公告)日: 2023-08-18
- 发明人: 刘硕 , 杨雅婷 , 白焜太 , 宋佳祥 , 许娟 , 史文钊
- 申请人: 神州医疗科技股份有限公司
- 申请人地址: 北京市海淀区北四环西路66号16层1901室
- 专利权人: 神州医疗科技股份有限公司
- 当前专利权人: 神州医疗科技股份有限公司
- 当前专利权人地址: 北京市海淀区北四环西路66号16层1901室
- 代理机构: 北京星通盈泰知识产权代理有限公司
- 代理商 夏晶
- 主分类号: G16H10/60
- IPC分类号: G16H10/60 ; G06F18/214 ; G06F18/10 ; G06F18/22 ; G06F40/205 ; G06F40/295
摘要:
本发明公开了基于预训练语言模型的医疗病历数据分割方法和系统,通过预构建的预训练语言模型生成原始病历文本数据,基于N‑gram模型按照1~n gram对原始病历文本数据进行划分组合,得到病历划分数据,并通过预构建的bert模型得到病历词向量集合,再用预设的医疗领域所有的标准词通过bert模型得到标准词向量集合,通过相似度得分计算病历词与标准词的相似度得分,根据预设阈值将符合的病历词标识为疾病实体,从而实现病历文本的快速精确分割识别操作,解决了基于传统序列标注的分割方法中效率低且准确率不达标的问题。
公开/授权文献
- CN116386800A 基于预训练语言模型的医疗病历数据分割方法和系统 公开/授权日:2023-07-04