基于预训练语言模型的医疗病历数据分割方法和系统

Invention Grant

CN116386800B 基于预训练语言模型的医疗病历数据分割方法和系统有权

Please log in to see more content

Patent Title: 基于预训练语言模型的医疗病历数据分割方法和系统
Application No.: CN202310658805.4

Application Date: 2023-06-06
Publication No.: CN116386800B

Publication Date: 2023-08-18
Inventor: 刘硕 , 杨雅婷 , 白焜太 , 宋佳祥 , 许娟 , 史文钊
Applicant: 神州医疗科技股份有限公司
Applicant Address: 北京市海淀区北四环西路66号16层1901室
Assignee: 神州医疗科技股份有限公司
Current Assignee: 神州医疗科技股份有限公司
Current Assignee Address: 北京市海淀区北四环西路66号16层1901室
Agency: 北京星通盈泰知识产权代理有限公司
Agent 夏晶
Main IPC: G16H10/60
IPC: G16H10/60 ; G06F18/214 ; G06F18/10 ; G06F18/22 ; G06F40/205 ; G06F40/295

Abstract:

本发明公开了基于预训练语言模型的医疗病历数据分割方法和系统，通过预构建的预训练语言模型生成原始病历文本数据，基于N‑gram模型按照1~n gram对原始病历文本数据进行划分组合，得到病历划分数据，并通过预构建的bert模型得到病历词向量集合，再用预设的医疗领域所有的标准词通过bert模型得到标准词向量集合，通过相似度得分计算病历词与标准词的相似度得分，根据预设阈值将符合的病历词标识为疾病实体，从而实现病历文本的快速精确分割识别操作，解决了基于传统序列标注的分割方法中效率低且准确率不达标的问题。

Public/Granted literature

CN116386800A 基于预训练语言模型的医疗病历数据分割方法和系统 Public/Granted day:2023-07-04

Information query

Chinese Patent Announcement Global Dossier Espacenet

IPC分类:

G	物理
G16	特别适用于特定应用领域的信息通信技术
G16H	医疗保健信息学，即专门用于处置或处理医疗或健康数据的信息和通信技术[ICT]
G16H10/00	专门用于加工或处理患者相关医疗或保健数据的ICT（医疗报告入G16H15/00；治疗或健康改善计划入G16H 20/00；用于处理或加工医疗图像入G16H 30/00）
G16H10/60	.患者特定数据，例如电子病历记录