一种模型训练方法和解决特定领域问题的方法

    公开(公告)号:CN117852654B

    公开(公告)日:2024-09-03

    申请号:CN202410166430.4

    申请日:2024-02-05

    申请人: 清华大学

    摘要: 本申请涉及一种模型训练方法和解决特定领域问题的方法,其中,模型训练方法包括:获取第一样本数据;第一样本数据包括N个第一问题文本和N个第一答案文本;根据第一样本数据和第一大语言模型,得到N个第一知识文本;根据第一样本数据中的至少部分数据和N个第一知识文本中的至少部分数据,对第一中间语言模型继续进行训练,得到第一语言模型;本申请提供的模型训练方法通过预训练一个应用于特定领域的小型语言模型,并利用大语言模型生成伪数据对该小型语言模型进行调整,可以得到能够生成针对特定领域问题的相关知识的第一语言模型,第一语言模型可以帮助大语言模型解决特定领域问题,提高大语言模型解决特定领域问题的能力。

    一种预训练语言模型的训练方法及装置

    公开(公告)号:CN116561574A

    公开(公告)日:2023-08-08

    申请号:CN202310431071.6

    申请日:2023-04-20

    申请人: 清华大学

    摘要: 本申请涉及一种预训练语言模型的训练方法及装置,其中,预训练语言模型包括编码器及至少一个解码器,该方法包括:获取法律文书样本;法律文书样本包括表示基本事实的第一文本;对第一文本中的至少一个字符进行替换处理,得到第一替换文本;根据标志符和第一替换文本对编码器进行训练,并根据基本事实向量和第二文本对至少一个解码器进行训练;其中,基本事实向量为编码器输出的表征第一文本语义的向量,第二文本为法律文书样本中除所述第一文本以外的文本;本申请提供的预训练语言模型的训练方法可以捕获法律文书不同结构之间的联系,增强预训练语言模型对关键法律要素的理解,提升预训练语言模型在法律领域的检索效果。

    基于快速空间插值的电力系统实时节点数据三维可视化方法

    公开(公告)号:CN101231631A

    公开(公告)日:2008-07-30

    申请号:CN200810056424.4

    申请日:2008-01-18

    申请人: 清华大学

    IPC分类号: G06F17/00 G06T15/10

    摘要: 本发明涉及基于快速空间插值的电力系统实时节点数据三维可视化方法,属于电力系统三维可视化技术领域。该方法包括:确定绘图矩形网格的规模;采集电网中的节点型数据;设置空间插值算法的参数;用快速空间插值计算:对于每一个网格点(xi,yj),计算其插值结果vi,j,以电网接线图作为背景,使用二维标量场可视化技术对网格数据(xi,yj,vi,j)进行表达,得到实时节点型数据的视化图形,用于对电网进行实时的安全经济监控;本发明通过引入虚设平均点和修正权重系数,在保证快速性的同时,显著改善了三维可视化图形的视觉效果和实用性。

    基于最小信息损失的综合负荷预测方法

    公开(公告)号:CN1731446A

    公开(公告)日:2006-02-08

    申请号:CN200510102402.3

    申请日:2005-09-09

    申请人: 清华大学

    IPC分类号: G06Q50/00

    摘要: 本发明涉及基于最小信息损失的综合负荷预测方法,属于电力系统负荷预测技术领域,该方法包括:选取历史参考日;虚拟预测;根据虚拟预测的结果和历史参考日的实际负荷值,对时刻t作M种算法的信道参数的估计和信源参数的估计;单一算法预测;根据信道参数和信源参数的估计以及各单一算法的预测结果,建立信息损失最小的目标函数,求解该目标函数,得到预测日t时刻的预测结果νt;对于预测日全天的总共T个时刻点,重复以上步骤,就可以得到预测日全天T点的负荷预测值序列。本发明从信息损失的角度出发,能充分利用历史负荷等数据中的信息,从而避免了对历史参考样本的过拟合,更适合于负荷随机性较大电网的负荷预测,能够提高预测结果的精度。

    基于快速空间插值的电力系统实时节点数据三维可视化方法

    公开(公告)号:CN101231631B

    公开(公告)日:2010-06-16

    申请号:CN200810056424.4

    申请日:2008-01-18

    申请人: 清华大学

    IPC分类号: G06F17/00 G06T15/10

    摘要: 本发明涉及基于快速空间插值的电力系统实时节点数据三维可视化方法,属于电力系统三维可视化技术领域。该方法包括:确定绘图矩形网格的规模;采集电网中的节点型数据;设置空间插值算法的参数;用快速空间插值计算:对于每一个网格点(xi,yj),计算其插值结果vi,j,以电网接线图作为背景,使用二维标量场可视化技术对网格数据(xi,yj,vi,j)进行表达,得到实时节点型数据的视化图形,用于对电网进行实时的安全经济监控;本发明通过引入虚设平均点和修正权重系数,在保证快速性的同时,显著改善了三维可视化图形的视觉效果和实用性。

    一种模型训练方法和解决特定领域问题的方法

    公开(公告)号:CN117852654A

    公开(公告)日:2024-04-09

    申请号:CN202410166430.4

    申请日:2024-02-05

    申请人: 清华大学

    摘要: 本申请涉及一种模型训练方法和解决特定领域问题的方法,其中,模型训练方法包括:获取第一样本数据;第一样本数据包括N个第一问题文本和N个第一答案文本;根据第一样本数据和第一大语言模型,得到N个第一知识文本;根据第一样本数据中的至少部分数据和N个第一知识文本中的至少部分数据,对第一中间语言模型继续进行训练,得到第一语言模型;本申请提供的模型训练方法通过预训练一个应用于特定领域的小型语言模型,并利用大语言模型生成伪数据对该小型语言模型进行调整,可以得到能够生成针对特定领域问题的相关知识的第一语言模型,第一语言模型可以帮助大语言模型解决特定领域问题,提高大语言模型解决特定领域问题的能力。

    基于最小信息损失的综合负荷预测方法

    公开(公告)号:CN100428276C

    公开(公告)日:2008-10-22

    申请号:CN200510102402.3

    申请日:2005-09-09

    申请人: 清华大学

    IPC分类号: G06Q50/00

    摘要: 本发明涉及基于最小信息损失的综合负荷预测方法,属于电力系统负荷预测技术领域,该方法包括:选取历史参考日;虚拟预测;根据虚拟预测的结果和历史参考日的实际负荷值,对时刻t作M种算法的信道参数的估计和信源参数的估计;单一算法预测;根据信道参数和信源参数的估计以及各单一算法的预测结果,建立信息损失最小的目标函数,求解该目标函数,得到预测日t时刻的预测结果vt;对于预测日全天的总共T个时刻点,重复以上步骤,就可以得到预测日全天T点的负荷预测值序列。本发明从信息损失的角度出发,能充分利用历史负荷等数据中的信息,从而避免了对历史参考样本的过拟合,更适合于负荷随机性较大电网的负荷预测,能够提高预测结果的精度。

    具有远程传输能力的多功能长时间心电记录仪

    公开(公告)号:CN2393482Y

    公开(公告)日:2000-08-30

    申请号:CN99248612.2

    申请日:1999-09-29

    申请人: 清华大学

    发明人: 白净 张永红 陈佳

    IPC分类号: A61B5/0432 A61B5/0402

    摘要: 本实用新型属于医疗电子领域。本心电记录仪包括单片机,与单片机相连的A/D采集器、功能按键、FLASH存储芯片、MODEM控制接口、D/A转换器及预先储存在单片机内的软件处理程序,还包括通过心电信号放大器与A/D采集器相连的心电电极,通过V/F变换器芯片与D/A转换器相连的音频输出装置,以及DC-DC直流电压输出电源。本心电记录仪具有体积小,功耗低,心电数据存储容量大,系统电压稳定度高的特点。