一种基于分组编码的长文本处理方法

    公开(公告)号:CN117436407A

    公开(公告)日:2024-01-23

    申请号:CN202311079493.8

    申请日:2023-08-25

    摘要: 一种基于分组编码的长文本推理方法,具体步骤包括:根据文本长度和预训练模型可接受的句子最大字符数计算分组长度;根据计算的分组长度,对分词后的句子进行分组;对分组后的每组字符进行编号,其中,每组内的字符采用相同编号;根据编号自动选取位置向量。本公开通过分组编码突破预训练模型文本长度限制,同时可以使得经预训练模型计算后的隐层向量获得文本的全局信息,适用于任何自然语言处理任务。