训练数据增强方法、大模型训练方法及其装置、计算设备

    公开(公告)号:CN118378090A

    公开(公告)日:2024-07-23

    申请号:CN202410643069.X

    申请日:2024-05-23

    摘要: 提供了训练数据的增强方法、大模型训练方法及其装置、计算设备。数据增强方法包括:获取针对特定领域的原始训练数据集的一个或多个数据质量衡量标准,每个数据质量衡量标准与多种类型的关键信息相关联;基于数据质量衡量标准,对所述原始训练数据集中的原始训练数据的关键信息进行识别,确定具有第一质量等级的第一训练数据集以及具有第二质量等级的第二训练数据集,其中,具有第一质量等级的训练数据包括与相应的数据质量衡量标准相关联的所有关键信息;以及将第一训练数据集和/或第二训练数据集中的训练数据的关键信息进行组合,得到具有第一质量等级的新的训练数据。

    一种融合多维度医疗数据的肿瘤精细分类系统

    公开(公告)号:CN118507067A

    公开(公告)日:2024-08-16

    申请号:CN202410617231.0

    申请日:2024-05-17

    摘要: 本发明属于肿瘤精细分类技术领域,尤其是一种融合多维度医疗数据的肿瘤精细分类系统,针对现有的肿瘤精细分类系统在使用过程中,不便于对肿瘤特征数据进行协作分析,从而导致降低了分类效率以及分类的准确性的问题,现提出如下方案,其包括医院信息平台模块;数据采集模块,数据采集模块连接有信息更新模块,信息跟新模块与医院信息平台模块连接,数据采集模块连接有登录模块、安全防护模块和特征提取模块,医院信息平台模块用于收集HIS、CIS、PACS不同院内系统数据,信息更新模块用于对医院信息平台模块收集的数据进行实时更新,本发明能够便于对肿瘤特征数据进行协作分析,从而可以有效提高分类效率以及分类的准确性。

    训练大语言模型的方法、装置、电子设备

    公开(公告)号:CN118245810B

    公开(公告)日:2024-08-02

    申请号:CN202410666752.5

    申请日:2024-05-28

    摘要: 本公开涉及一种训练大语言模型的方法及装置、一种医疗数据处理方法、电子设备和计算机可读存储介质。本公开通过在训练阶段,对输入至大语言模型的输入数据进行增强,从而提升大模型的训练效果。例如,所述大语言模型包括第一大语言模型和第二大语言模型。通过迭代地、交替地执行针对所述第一大语言模型的第一训练和针对所述第二大语言模型的第二训练,由此动态地更新了每次第一训练中的实际训练第一大语言模型的样本数据并更新了每次第二训练中的实际训练第二大语言模型的样本数据,显著地提升了第一大语言模型和第二大语言模型的性能,降低了不准确的输入数据对推理结果的干扰。

    医疗大语言模型的训练及推理的方法、装置、设备及介质

    公开(公告)号:CN117577350B

    公开(公告)日:2024-06-11

    申请号:CN202311548939.7

    申请日:2023-11-20

    摘要: 本发明提供了医疗大语言模型的训练及推理的方法、装置、设备及介质。该训练方法包括获取医疗文本数据;基于正则表达式来提取医疗文本数据中的关键词,其中关键词被分类为一个或多个主题;基于关键词对医学知识库进行索引以获得相关联医学知识,其中相关联医学知识根据关键词所属的主题被分类成相关联医学知识集合;对医疗文本数据与相关联医学知识集合进行聚类分析,以标识医疗文本数据和相关联医学知识集合的相关性;基于医疗文本数据和相关联医学知识集合的相关性,过滤相关联医学知识集合中与医疗文本数据的相关性低于阈值的相关联医学知识集合;以及基于经过滤的相关联医学知识集合以及医疗文本数据训练医疗大语言模型LLM以更新医疗LLM的参数。

    命名实体识别方法、装置、设备和计算机可读存储介质

    公开(公告)号:CN118133830A

    公开(公告)日:2024-06-04

    申请号:CN202410532791.6

    申请日:2024-04-30

    摘要: 提供了一种命名实体识别方法、装置、设备和计算机可读存储介质。该命名实体识别方法包括:使用输入单元接收包括一个或多个命名实体的待识别文本;使用编码器中的大语言模型LLM对待识别文本进行嵌入式处理,以提取对应的特征向量序列;通过编码器中的双向门控循环单元GRU模型处理特征向量序列,以使用双向GRU模型中的前向GRU组件捕获待识别文本的前向上下文信息,并且使用双向GRU模型中的后向GRU组件捕获待识别文本的后向上下文信息,前向上下文信息或后向上下文信息包括待识别文本中的词元在时间上的短期依赖关系和长期依赖关系;以及使用输出单元基于捕获的前向上下文信息和后向上下文信息标注待识别文本中的一个或多个命名实体。

    一种用于肿瘤全病程整合的医疗管理系统

    公开(公告)号:CN118506997A

    公开(公告)日:2024-08-16

    申请号:CN202410701077.5

    申请日:2024-05-31

    IPC分类号: G16H40/20 G16H10/60 G06F18/24

    摘要: 本发明属于医疗管理领域,尤其是一种用于肿瘤全病程整合的医疗管理系统,针对现有的不便于根据患者的数据,提供相应的治疗建议,容易因医生的误判耽误治疗问题,现提出如下方案,其包括患者端、医疗管理平台和医护端,所述医疗管理平台包括患者数据采集模块、患者数据识别模块、患者数据分类模块、患者数据存储模块、患者数据提取模块、健康状态分析模块、治疗建议模块、可行性计算模块、治疗过程预测模块、反馈模块、数据管理模块和提取频率设置模块,所述患者数据采集模块与患者数据识别模块连接,患者数据识别模块与患者数据分类模块连接,本发明方便对患者数据进行管理,根据患者的数据提供治疗建议,避免耽误治疗。

    小模型训练方法、治理肿瘤临床记录数据的方法及其装置

    公开(公告)号:CN118173215B

    公开(公告)日:2024-08-02

    申请号:CN202410591562.1

    申请日:2024-05-14

    IPC分类号: G16H10/60 G06F16/35 G06N20/00

    摘要: 本公开提供一种小模型训练方法、治理肿瘤临床记录数据的方法及其装置。一种用于处理肿瘤临床记录数据的小模型训练方法,包括:获取肿瘤相关数据,并基于肿瘤相关数据对基座大模型进行预训练,以获得具有肿瘤专业知识的定制大模型;获取肿瘤临床记录数据,并通过定制大模型针对获取的肿瘤临床记录数据执行结构化处理任务和逻辑判断任务,以获得定制大模型的标注结果,定制大模型的标注结果包括结构化文本和推理文本;以及基于定制大模型生成的标注结果,分别以文本生成形式和分类形式将结构化文本和推理文本作为训练数据来训练多个小模型,多个小模型包括用于执行结构化处理任务的结构化类小模型和用于执行逻辑判断任务的推理类小模型。

    多模态大语言模型的训练及推理方法、装置、设备及介质

    公开(公告)号:CN117637189B

    公开(公告)日:2024-06-21

    申请号:CN202311763649.4

    申请日:2023-12-20

    摘要: 本发明提供了多模态大语言模型的训练及推理方法、装置、设备及介质。该训练方法包括获取与用户的医学影像相关联的第一数据集和与用户的医疗记录相关联的第二文本数据集,其中第一数据集包括用户的医学影像的张量表示以及基于医学影像生成的关于医学影像的描述和判断的第一文本数据;基于第一数据集中包括的第一文本数据,对第一数据集和第二文本数据集进行聚类分析,以将第二文本数据集中的一个或多个第二文本数据与第一数据集相关联;将第一数据集保持存储在多模态大语言模型的缓存的第一分区中并且将一个或多个第二文本数据中的至少第一部分存储在缓存的第二分区中;基于第一分区中和第二分区中的数据训练多模态大语言模型以更新该模型的参数。

    小模型训练方法、治理肿瘤临床记录数据的方法及其装置

    公开(公告)号:CN118173215A

    公开(公告)日:2024-06-11

    申请号:CN202410591562.1

    申请日:2024-05-14

    IPC分类号: G16H10/60 G06F16/35 G06N20/00

    摘要: 本公开提供一种小模型训练方法、治理肿瘤临床记录数据的方法及其装置。一种用于处理肿瘤临床记录数据的小模型训练方法,包括:获取肿瘤相关数据,并基于肿瘤相关数据对基座大模型进行预训练,以获得具有肿瘤专业知识的定制大模型;获取肿瘤临床记录数据,并通过定制大模型针对获取的肿瘤临床记录数据执行结构化处理任务和逻辑判断任务,以获得定制大模型的标注结果,定制大模型的标注结果包括结构化文本和推理文本;以及基于定制大模型生成的标注结果,分别以文本生成形式和分类形式将结构化文本和推理文本作为训练数据来训练多个小模型,多个小模型包括用于执行结构化处理任务的结构化类小模型和用于执行逻辑判断任务的推理类小模型。

    大语言模型训练方法、装置、设备及介质

    公开(公告)号:CN117786536B

    公开(公告)日:2024-05-10

    申请号:CN202410199335.4

    申请日:2024-02-23

    IPC分类号: G06F18/2415 G06N3/09

    摘要: 本发明提供了用于肿瘤疗效评价的大语言模型训练方法、装置、设备及介质。该方法包括:基于肿瘤疗效评价以及用于肿瘤疗效评价的多个医学判断维度生成多个任务,多个任务包括以肿瘤疗效评价为任务目标的疗效评价任务、以多个医学判断维度分别为任务目标的多个维度判断任务和以肿瘤疗效评价和多个医学判断维度中的两个或更多个共同为任务目标的共享任务;将医疗文本数据分别输入多个维度判断任务及共享任务以获得维度判断任务梯度、维度判断任务结果、共享任务梯度及共享任务结果;将医疗文本数据、维度判断任务结果及共享任务结果输入疗效评价任务以获得疗效评价任务的疗效评价任务梯度;以及基于多个任务各自的任务梯度来更新大语言模型的参数。