基于预训练语言模型的医疗病历数据分割方法和系统
摘要:
本发明公开了基于预训练语言模型的医疗病历数据分割方法和系统,通过预构建的预训练语言模型生成原始病历文本数据,基于N‑gram模型按照1~n gram对原始病历文本数据进行划分组合,得到病历划分数据,并通过预构建的bert模型得到病历词向量集合,再用预设的医疗领域所有的标准词通过bert模型得到标准词向量集合,通过相似度得分计算病历词与标准词的相似度得分,根据预设阈值将符合的病历词标识为疾病实体,从而实现病历文本的快速精确分割识别操作,解决了基于传统序列标注的分割方法中效率低且准确率不达标的问题。
0/0