农业领域大语言模型训练方法、设备及介质

    公开(公告)号:CN119128070A

    公开(公告)日:2024-12-13

    申请号:CN202411012153.8

    申请日:2024-07-26

    Abstract: 本申请提供了一种农业领域大语言模型训练方法、设备及介质,农业领域大语言模型训练方法包括:收集农业领域数据图书信息进行预处理获取第一汉语数据集和第一少数民族语言数据集,将第一汉语数据集和第一少数民族语言数据集合并生成第一混合语言数据集并采用分词库进行处理后采用预设的特殊字符处理方法进行二次处理,并构建分词表,构建WordPiece词片模型对分词表进行处理和划分;采用词嵌入算法将分词表中的每个词转换为词向量;构建基于Transformer架构的采用自注意力机制的编码组件和解码器组件,生成农业领域大语言模型,以及,以词向量作为输入对农业领域大语言模型进行训练得到训练好的农业领域大语言模型。以解决支持汉语和少数民族语言的大语言模型问题。

Patent Agency Ranking