专利检索 ap:("中国电子科技集团公司第十五研究所") AND inv:"陆军" 第 1 页

1.

发明公开
一种基于分组编码的长文本处理方法审中-实审

公开(公告)号：CN117436407A

公开(公告)日：2024-01-23

申请号：CN202311079493.8

申请日：2023-08-25

申请人： 中国电子科技集团公司第十五研究所

发明人： 杨晨 , 张可 , 顾平莉 , 殷敏 , 陆军

IPC分类号： G06F40/126 , G06F40/289 , G06N3/045

摘要： 一种基于分组编码的长文本推理方法，具体步骤包括：根据文本长度和预训练模型可接受的句子最大字符数计算分组长度；根据计算的分组长度，对分词后的句子进行分组；对分组后的每组字符进行编号，其中，每组内的字符采用相同编号；根据编号自动选取位置向量。本公开通过分组编码突破预训练模型文本长度限制，同时可以使得经预训练模型计算后的隐层向量获得文本的全局信息，适用于任何自然语言处理任务。