-
公开(公告)号:CN118378090A
公开(公告)日:2024-07-23
申请号:CN202410643069.X
申请日:2024-05-23
申请人: 北京壹永科技有限公司
IPC分类号: G06F18/214 , G06N3/08 , G06N5/022 , G06N5/04 , G16H10/60
摘要: 提供了训练数据的增强方法、大模型训练方法及其装置、计算设备。数据增强方法包括:获取针对特定领域的原始训练数据集的一个或多个数据质量衡量标准,每个数据质量衡量标准与多种类型的关键信息相关联;基于数据质量衡量标准,对所述原始训练数据集中的原始训练数据的关键信息进行识别,确定具有第一质量等级的第一训练数据集以及具有第二质量等级的第二训练数据集,其中,具有第一质量等级的训练数据包括与相应的数据质量衡量标准相关联的所有关键信息;以及将第一训练数据集和/或第二训练数据集中的训练数据的关键信息进行组合,得到具有第一质量等级的新的训练数据。
-
公开(公告)号:CN115859984B
公开(公告)日:2024-01-23
申请号:CN202211656436.7
申请日:2022-12-22
申请人: 北京壹永科技有限公司
IPC分类号: G06F40/295 , G06F16/36 , G06F16/35 , G06F18/214 , G06F18/243 , G06N3/0895 , G06N3/045 , G06N3/0455 , G06N3/0442 , G06N3/0464 , G16H10/60
摘要: 本公开提供了基于半监督的医疗命名实体识别模型训练方法、装置、设备及介质。该方法包括构造大量未标注分类训练数据;将分类训练数据输入包括第一编码模块和第一损失函数模块的二分类模型进行训练;基于第一损失函数模块的结果,多次训练二分类模型以优化第一编码模块的第一编码参数集;生成少量经标注训练数据,标注是针对数据中的医疗命名实体的标注;将经标注训练数据输入包括第二编码模块和第二损失函数模块的命名实体识别模型进行训练,其中第二编码模块使用优化后的第一编码参数集作为第二编码模块的第二编码参数集的初始值;以及基于第二损失函数模块的结果,使用经标注训练数据训练命名实体识别模型以获得优化后的第二编码参数集。
-
公开(公告)号:CN117035087A
公开(公告)日:2023-11-10
申请号:CN202311293688.2
申请日:2023-10-09
申请人: 北京壹永科技有限公司
摘要: 本发明提供了用于医疗推理的事理图谱生成方法、装置、设备及介质。该方法包括获取每个文本数据中包括多个经标识事件的训练医疗文本数据集,每个事件对之间存在确定的转移概率;按照多个经标识事件的顺序,依次输入具有BiLSTM的神经网络进行训练,以基于转移概率生成包括以任一经标识事件为起点的多个逻辑路径的马尔科夫链;将多个逻辑路径与临床路径进行比较以确定与多个逻辑路径相匹配的、包括临床路径事件集合的至少一个匹配路径;基于临床路径事件集合,确定训练医疗文本数据中存在与至少一个经标识事件具有因果关系的未被标识的证据事件;以及基于多个逻辑路径以及未被标识的证据事件与至少一个经标识事件的因果关系,构建事理图谱。
-
公开(公告)号:CN115859984A
公开(公告)日:2023-03-28
申请号:CN202211656436.7
申请日:2022-12-22
申请人: 北京壹永科技有限公司
IPC分类号: G06F40/295 , G06F16/36 , G06F16/35 , G06F18/214 , G06F18/243 , G06N3/0895 , G06N3/045 , G06N3/0455 , G06N3/0442 , G06N3/0464 , G16H10/60
摘要: 本公开提供了基于半监督的医疗命名实体识别模型训练方法、装置、设备及介质。该方法包括构造大量未标注分类训练数据;将分类训练数据输入包括第一编码模块和第一损失函数模块的二分类模型进行训练;基于第一损失函数模块的结果,多次训练二分类模型以优化第一编码模块的第一编码参数集;生成少量经标注训练数据,标注是针对数据中的医疗命名实体的标注;将经标注训练数据输入包括第二编码模块和第二损失函数模块的命名实体识别模型进行训练,其中第二编码模块使用优化后的第一编码参数集作为第二编码模块的第二编码参数集的初始值;以及基于第二损失函数模块的结果,使用经标注训练数据训练命名实体识别模型以获得优化后的第二编码参数集。
-
公开(公告)号:CN118506997A
公开(公告)日:2024-08-16
申请号:CN202410701077.5
申请日:2024-05-31
申请人: 北京壹永科技有限公司
摘要: 本发明属于医疗管理领域,尤其是一种用于肿瘤全病程整合的医疗管理系统,针对现有的不便于根据患者的数据,提供相应的治疗建议,容易因医生的误判耽误治疗问题,现提出如下方案,其包括患者端、医疗管理平台和医护端,所述医疗管理平台包括患者数据采集模块、患者数据识别模块、患者数据分类模块、患者数据存储模块、患者数据提取模块、健康状态分析模块、治疗建议模块、可行性计算模块、治疗过程预测模块、反馈模块、数据管理模块和提取频率设置模块,所述患者数据采集模块与患者数据识别模块连接,患者数据识别模块与患者数据分类模块连接,本发明方便对患者数据进行管理,根据患者的数据提供治疗建议,避免耽误治疗。
-
公开(公告)号:CN118173215B
公开(公告)日:2024-08-02
申请号:CN202410591562.1
申请日:2024-05-14
申请人: 北京壹永科技有限公司
摘要: 本公开提供一种小模型训练方法、治理肿瘤临床记录数据的方法及其装置。一种用于处理肿瘤临床记录数据的小模型训练方法,包括:获取肿瘤相关数据,并基于肿瘤相关数据对基座大模型进行预训练,以获得具有肿瘤专业知识的定制大模型;获取肿瘤临床记录数据,并通过定制大模型针对获取的肿瘤临床记录数据执行结构化处理任务和逻辑判断任务,以获得定制大模型的标注结果,定制大模型的标注结果包括结构化文本和推理文本;以及基于定制大模型生成的标注结果,分别以文本生成形式和分类形式将结构化文本和推理文本作为训练数据来训练多个小模型,多个小模型包括用于执行结构化处理任务的结构化类小模型和用于执行逻辑判断任务的推理类小模型。
-
公开(公告)号:CN117637189B
公开(公告)日:2024-06-21
申请号:CN202311763649.4
申请日:2023-12-20
申请人: 北京壹永科技有限公司
IPC分类号: G16H70/60 , G16H50/20 , G06F16/35 , G06F40/216 , G06F40/30 , G06N5/04 , G06N5/022 , G16H50/70
摘要: 本发明提供了多模态大语言模型的训练及推理方法、装置、设备及介质。该训练方法包括获取与用户的医学影像相关联的第一数据集和与用户的医疗记录相关联的第二文本数据集,其中第一数据集包括用户的医学影像的张量表示以及基于医学影像生成的关于医学影像的描述和判断的第一文本数据;基于第一数据集中包括的第一文本数据,对第一数据集和第二文本数据集进行聚类分析,以将第二文本数据集中的一个或多个第二文本数据与第一数据集相关联;将第一数据集保持存储在多模态大语言模型的缓存的第一分区中并且将一个或多个第二文本数据中的至少第一部分存储在缓存的第二分区中;基于第一分区中和第二分区中的数据训练多模态大语言模型以更新该模型的参数。
-
公开(公告)号:CN118173215A
公开(公告)日:2024-06-11
申请号:CN202410591562.1
申请日:2024-05-14
申请人: 北京壹永科技有限公司
摘要: 本公开提供一种小模型训练方法、治理肿瘤临床记录数据的方法及其装置。一种用于处理肿瘤临床记录数据的小模型训练方法,包括:获取肿瘤相关数据,并基于肿瘤相关数据对基座大模型进行预训练,以获得具有肿瘤专业知识的定制大模型;获取肿瘤临床记录数据,并通过定制大模型针对获取的肿瘤临床记录数据执行结构化处理任务和逻辑判断任务,以获得定制大模型的标注结果,定制大模型的标注结果包括结构化文本和推理文本;以及基于定制大模型生成的标注结果,分别以文本生成形式和分类形式将结构化文本和推理文本作为训练数据来训练多个小模型,多个小模型包括用于执行结构化处理任务的结构化类小模型和用于执行逻辑判断任务的推理类小模型。
-
公开(公告)号:CN112800213B
公开(公告)日:2024-06-07
申请号:CN202110106860.3
申请日:2021-01-26
申请人: 北京壹永科技有限公司
发明人: 杨郑彬
IPC分类号: G06F16/34 , G06F16/36 , G06F40/126 , G06F40/242 , G06F40/289 , G06F40/30 , G16H10/00
摘要: 本发明公开了一种医学文本信息显示方法、装置及电子设备,其中方法包括:根据医学术语标准名称和医学术语标准名称对应的所有特征词建立规则库,将所获取的医学文本信息拆分为多个关键词,根据规则库中与关键词相同的特征词所属的规则生成第一候选规则集,如果医学文本信息与第一候选规则集中的规则包含的所有特征词及预设的特征约束相匹配,则根据规则生成第二候选规则集,将第二候选规则集中的规则按照评分标准进行评分,显示评分最高的规则对应的医学术语标准名称;本发明将同一语义的医学术语的不同表达形态以标准名称显示并进行编码,从而实现医学概念标准化,解决医疗文本中的概念变体现象,具有生产简易、可解释性高的特点。
-
公开(公告)号:CN117786536B
公开(公告)日:2024-05-10
申请号:CN202410199335.4
申请日:2024-02-23
申请人: 北京壹永科技有限公司
IPC分类号: G06F18/2415 , G06N3/09
摘要: 本发明提供了用于肿瘤疗效评价的大语言模型训练方法、装置、设备及介质。该方法包括:基于肿瘤疗效评价以及用于肿瘤疗效评价的多个医学判断维度生成多个任务,多个任务包括以肿瘤疗效评价为任务目标的疗效评价任务、以多个医学判断维度分别为任务目标的多个维度判断任务和以肿瘤疗效评价和多个医学判断维度中的两个或更多个共同为任务目标的共享任务;将医疗文本数据分别输入多个维度判断任务及共享任务以获得维度判断任务梯度、维度判断任务结果、共享任务梯度及共享任务结果;将医疗文本数据、维度判断任务结果及共享任务结果输入疗效评价任务以获得疗效评价任务的疗效评价任务梯度;以及基于多个任务各自的任务梯度来更新大语言模型的参数。
-
-
-
-
-
-
-
-
-