-
公开(公告)号:CN117436407A
公开(公告)日:2024-01-23
申请号:CN202311079493.8
申请日:2023-08-25
申请人: 中国电子科技集团公司第十五研究所
IPC分类号: G06F40/126 , G06F40/289 , G06N3/045
摘要: 一种基于分组编码的长文本推理方法,具体步骤包括:根据文本长度和预训练模型可接受的句子最大字符数计算分组长度;根据计算的分组长度,对分词后的句子进行分组;对分组后的每组字符进行编号,其中,每组内的字符采用相同编号;根据编号自动选取位置向量。本公开通过分组编码突破预训练模型文本长度限制,同时可以使得经预训练模型计算后的隐层向量获得文本的全局信息,适用于任何自然语言处理任务。