基于深度迁移学习的大语言模型数据挖掘方法

    公开(公告)号:CN117573811B

    公开(公告)日:2024-03-19

    申请号:CN202410057152.9

    申请日:2024-01-16

    摘要: 本发明涉及数据处理技术领域,提出了基于深度迁移学习的大语言模型数据挖掘方法,包括:获取文本数据集;利用主题模型获取每个主题下的主题特征词;利用深度优先搜索算法基于包含每个主题特征词对应节点的无向图确定文本无向路径;基于文本无向路径确定主题含义关联系数;基于主题含义关联系数以及主题特征词出现的频率确定主题含义凸显度;基于每个主题下所有主题特征词的主题含义凸显度的分布特征以及不同主题之间的语义差异确定主题过滤指数;基于主题过滤指数得到文本集合中的增强主题;将源域模型中的权重参数迁移到所述增强主题训练的文本分类模型中得到数据挖掘结果。本发明通过主题增强的方式提高文本数据分类的准确率。

    用于大语言模型的去偏倚方法

    公开(公告)号:CN117494727A

    公开(公告)日:2024-02-02

    申请号:CN202311854611.8

    申请日:2023-12-29

    摘要: 本发明涉及文本处理技术领域,具体涉及用于大语言模型的去偏倚方法。该方法包括:获取数据集;将数据集分为若干句子,每个句子获取一个词性标注序列;获取句子中每个词的情感得分,根据每个形容词周围的词的编号、情感得分以及词性获取每个形容词的情感强度加权系数;根据每个形容词的位置、情感得分以及情感强度加权系数获取每个形容词的位置加权情感指数;根据所有形容词的位置加权情感指数获取每个句子的文本偏倚度;根据每个句子的文本偏倚度对大语言模型进行去偏倚。本发明可以更加精确的调整大模型训练时的细节,从而降低大语言模型输出文本的偏倚情况。

    基于图像处理的AI仿真教学方法及系统

    公开(公告)号:CN117422627A

    公开(公告)日:2024-01-19

    申请号:CN202311733029.6

    申请日:2023-12-18

    IPC分类号: G06T5/00 G06T5/50

    摘要: 本发明涉及图像处理技术领域,具体涉及基于图像处理的AI仿真教学方法及系统,包括:获取教学视频的逐帧灰度图像,根据多帧灰度图像中同一个位置的像素点的灰度值变化情况获取像素点的运动模糊特征量,结合像素点的梯度方向获取像素点的相关性向量,根据每个分块中所有像素点的相关性向量获取每个分块的动态程度,根据像素点以及其八邻域内其余像素点的相关性向量和所在分块的动态程度得到像素点的运动特征量,根据运动特征量将当前帧灰度图像划分为多个类别,对每个类别的图像分别进行盲去卷积,得到当前帧去模糊灰度图像。本发明消除了教学视频中教师动作变化带来的运动模糊对教学视频清晰度的影响,提高了教学质量。

    基于知识图谱集成的大语言模型向量检索方法

    公开(公告)号:CN117520485B

    公开(公告)日:2024-03-29

    申请号:CN202410022166.7

    申请日:2024-01-08

    摘要: 本发明涉及数据处理技术领域,具体涉及基于知识图谱集成的大语言模型向量检索方法,包括:采集文本数据集构建知识图谱,获取实体集合中每个实体的名词序列和编号序列,从而得到每个实体的属性特征值,以此将所有实体划分的若干个聚类簇,根据所有聚类簇中所有实体的属性特征值之间的差异,得到TransE模型的修正损失函数,从而得到三元组集合中的每个三元组的向量表示,由此获取用户查询时的查询结果。本发明通过分析实体集合中实体之间的相似性,对TransE模型的损失函数进行修正,获取准确的向量表示结果,从而提高了用户查询时的检索准确性。

    用于大语言模型的去偏倚方法

    公开(公告)号:CN117494727B

    公开(公告)日:2024-03-29

    申请号:CN202311854611.8

    申请日:2023-12-29

    摘要: 本发明涉及文本处理技术领域,具体涉及用于大语言模型的去偏倚方法。该方法包括:获取数据集;将数据集分为若干句子,每个句子获取一个词性标注序列;获取句子中每个词的情感得分,根据每个形容词周围的词的编号、情感得分以及词性获取每个形容词的情感强度加权系数;根据每个形容词的位置、情感得分以及情感强度加权系数获取每个形容词的位置加权情感指数;根据所有形容词的位置加权情感指数获取每个句子的文本偏倚度;根据每个句子的文本偏倚度对大语言模型进行去偏倚。本发明可以更加精确的调整大模型训练时的细节,从而降低大语言模型输出文本的偏倚情况。

    基于NLP和循环神经网络的大语言模型构建方法

    公开(公告)号:CN117520786A

    公开(公告)日:2024-02-06

    申请号:CN202410006873.7

    申请日:2024-01-03

    摘要: 本发明涉及数字数据处理技术领域,提出了基于NLP和循环神经网络的大语言模型构建方法,包括:根据分词结果确定标准数据集中每个字的标签;根据每个字与专业字典中每个词语的词向量之间的相似度确定字意匹配度;根据文本序列内的分词结果在专业字典中出现的频率确定上下文语境匹配得分;根据词语的重要性以及上下文语境匹配得分确定词性特征得分;根据词性特征得分、字意匹配度确定状态特征函数与转移特征函数;采用条件随机场基于状态特征函数与转移特征函数获取标准数据集的标注结果;基于标注结果构建基于循环神经网络的大语言模型。本发明利用改进后的条件随机场对标准数据集进行标注,提高了大语言模型捕捉输入数据中颗粒信息的能力。