一种对大语言模型的文本嵌入模块进行训练的方法和装置

    公开(公告)号:CN118504714A

    公开(公告)日:2024-08-16

    申请号:CN202410961481.6

    申请日:2024-07-18

    摘要: 本发明实施例涉及一种对大语言模型的文本嵌入模块进行训练的方法和装置,所述方法包括:将需要进行训练的文本嵌入模块所在的大语言模型记为对应的第一模型;并指定另一个大语言模型作为对应的第二模型;并将预设的数据生成任务配置作为对应的第一配置;根据第一配置和第二模型进行训练数据集构建得到对应的第一数据集;基于第一数据集对第一模型的文本嵌入模块进行训练。通过本发明可以对文本嵌入模块进行单独训练、提高模块训练效率、降低模块训练成本。

    一种结合预训练模型的APA预测模型的处理方法和装置

    公开(公告)号:CN116884483A

    公开(公告)日:2023-10-13

    申请号:CN202310852017.9

    申请日:2023-07-12

    摘要: 本发明实施例涉及一种结合预训练模型的APA预测模型的处理方法和装置,所述方法包括:构建APA预测模型;并对APA预测模型进行训练;模型训练结束后,接收用户输入的模型应用模式和第一RNA序列;并对模型应用模式进行识别;若模型应用模式为第一模式,则基于APA预测模型对输入的第一RNA序列进行APA现象预测;若模型应用模式为第二模式,则基于APA预测模型对输入的第一RNA序列进行APA现象预测并基于预测结果进行APA位点筛选。通过本发明可以给出一种基于人工智能深度学习技术的APA位点预测手段,并通过引入预训练模型来达到降低模型训练难度、提高模型预测准确度的目的。

    一种电镜投影图编、解码器的联合训练方法和装置

    公开(公告)号:CN116389706A

    公开(公告)日:2023-07-04

    申请号:CN202310657820.7

    申请日:2023-06-06

    摘要: 本发明实施例涉及一种电镜投影图编、解码器的联合训练方法和装置,所述方法包括:步骤1,初始化一、二阶段计数器为0并设置一、二阶段轮次阈值;步骤2,对编、解码器进行一轮一阶段训练并在过程中采集二阶段训练数据并在本轮训练结束时对一阶段计数器加1;步骤3,若一阶段计数器小于一阶段轮次阈值则返回步骤2继续训练,反之则对解码器的模型参数进行固化并转至步骤4;步骤4,基于二阶段训练数据集合对编码器进行一轮二阶段训练,并在本轮训练结束时对二阶段计数器加1;步骤5,若二阶段计数器小于二阶段轮次阈值则返回步骤4继续训练,反之则确认联合训练结束。通过本发明可以提高编、解码器模型的训练效率。

    一种抗体结构预测的处理方法和装置

    公开(公告)号:CN115881220B

    公开(公告)日:2023-06-06

    申请号:CN202310114453.6

    申请日:2023-02-15

    摘要: 本发明实施例涉及一种抗体结构预测的处理方法和装置,所述方法包括:基于预设的多个迭代次数对抗体结构预测模型进行训练得到多组结构预测模型参数;并对抗体结构评分模型进行训练;获取FV片段序列;对多组结构预测模型参数进行遍历,遍历时基于当前遍历的结构预测模型参数对抗体结构预测模型进行参数设置并将重链、轻链残基序列输入当前抗体结构预测模型进行FV片段三维结构预测得到对应的FV片段结构;将得到的M个FV片段结构分别输入抗体结构评分模型进行置信度评分;从得到M个评分中选择最大评分对应的FV片段结构作为最优FV片段结构并输出。通过本发明可以基于抗体结构预测模型+抗体结构评分模型的组合来提高结构预测精度。

    一种基于三维原子密度图优化分子结构的处理方法和装置

    公开(公告)号:CN115691658A

    公开(公告)日:2023-02-03

    申请号:CN202211385661.1

    申请日:2022-11-07

    IPC分类号: G16B15/00 G16B5/00 G06T17/00

    摘要: 本发明实施例涉及一种基于三维原子密度图优化分子结构的处理方法和装置,所述方法包括:获取第一3D原子密度图和对应的第一蛋白质序列、第一3D初始结构;基于预设的3D图像识别模型对第一3D原子密度图进行目标识别处理生成对应的第一Cα原子密度图和第一主干原子密度图;根据第一Cα原子密度图和第一蛋白质序列进行残基标注片段识别处理生成多个第一标注片段;根据所有第一标注片段和第一主干原子密度图对第一3D初始结构进行三维分子结构优化处理生成对应的第一优化结构。过本发明,以先验的三维初始结构为优化对象、以来自于三维密度图的Cα原子密度图和主干原子密度图为目标进行全局、局部优化,可以提高三维结构的优化效率。

    一种药物分子和蛋白靶点结合姿势预测处理方法

    公开(公告)号:CN115527607A

    公开(公告)日:2022-12-27

    申请号:CN202211281707.5

    申请日:2022-10-19

    摘要: 本发明实施例涉及一种药物分子和蛋白靶点结合姿势预测处理方法,所述方法包括:步骤1、利用第一机器学习模型,输入独立的蛋白靶点结构信息和药物分子结构信息,得到和输出第一药物分子和蛋白靶点的结合姿势信息;步骤2、利用所述第一药物分子和蛋白靶点的结合姿势信息,对药物分子对接打分函数添加偏置项,形成偏置项打分函数;步骤3、根据所述偏置项打分函数,利用分子对接算法,输入独立的蛋白靶点结构信息和药物分子结构信息,生成第二药物分子和蛋白靶点的结合姿势信息,作为药物分子和蛋白靶点结合姿势预测信息。本发明实施例提供的药物分子和蛋白靶点结合姿势预测处理方法,有效的提高了药物分子和蛋白靶点结合姿势预测的准确率。

    一种生成式大语言模型的预训练方法和装置

    公开(公告)号:CN118551750A

    公开(公告)日:2024-08-27

    申请号:CN202411008948.1

    申请日:2024-07-26

    摘要: 本发明实施例涉及一种生成式大语言模型的预训练方法和装置,所述方法包括:构建初始模型;构建初始数据集;对初始数据集预处理;初始化模型词汇表;对预处理数据集进行数据批次划分和排序;按反向预测方向根据模型词汇表和批次数据集序列对初始模型进行预训练得到反向模型;按正向预测方向根据模型词汇表、批次数据集序列和反向模型对初始模型进行预训练得到正向模型;评测正向模型;评测合格时将正向模型作为预训练结果输出。通过本发明可以降低生成式大语言模型的本地化发展难度、加快本地化发展应用进程。