发明公开
- 专利标题: 一种异构多模态混合专家适配器
-
申请号: CN202410844715.9申请日: 2024-06-27
-
公开(公告)号: CN118708381A公开(公告)日: 2024-09-27
- 发明人: 夏炎 , 周洒帅 , 朱杰明 , 赵洲
- 申请人: 浙江大学 , 上海人工智能创新中心
- 申请人地址: 浙江省杭州市西湖区余杭塘路866号;
- 专利权人: 浙江大学,上海人工智能创新中心
- 当前专利权人: 浙江大学,上海人工智能创新中心
- 当前专利权人地址: 浙江省杭州市西湖区余杭塘路866号;
- 代理机构: 杭州求是专利事务所有限公司
- 代理商 杨亚男
- 主分类号: G06F9/54
- IPC分类号: G06F9/54 ; G06N3/0455 ; G06N3/042 ; G06N3/096 ; G06F18/241
摘要:
本发明提出了一种异构多模态混合专家适配器,将传统单一类型的多模态MoE架构转变为多种专家类型的组合。该适配器将每个专家的输入从单一模态扩展到多个模态,实现每个专家内部的跨模态交互。具体地,本发明引入了包括交叉注意力专家和通道注意力专家在内的异构专家结构,将不同模态的输入映射到低秩空间,在该空间中进行模态交互融合,再映射回原始维度,使可训练参数能够有效调整冻结预训练模型的梯度,充分利用不同模态间的协同交互。全局路由器为每组专家分配权重,局部组路由器控制每个专家的门控权重。该适配器可集成到多模态预训练模型的编码器层中,在下游任务上仅微调可训练参数,保持推理阶段参数量基本不变。