专用于CNN加速器的深度学习编译器优化方法

    公开(公告)号:CN114995822B

    公开(公告)日:2024-08-23

    申请号:CN202210638258.9

    申请日:2022-06-07

    申请人: 重庆大学

    IPC分类号: G06F8/41 G06N3/0464 G06N3/082

    摘要: 本发明提出了一种专用于CNN加速器的深度学习编译器优化方法,包括以下步骤:S1,通过算子融合和/或bn融合的优化方法减少加速器对内存的访问以及存储空间的浪费,同时使用内存分配地址叠加的方式避免各张量之间的数据覆盖;S2,采用固定硬件下的多种模型量化部署方案,通过融合非对称量化的偏移和卷积偏置;同时通过编译器与加速器的协同优化,将DSP的输入数据配置为两个数的移位相加从而在一个DSP中同时进行两次乘法运算,最终实现编译器对可变位宽量化的支持。

    一种面向CNN专用加速器的深度学习编译器优化方法

    公开(公告)号:CN114995823B

    公开(公告)日:2024-08-20

    申请号:CN202210639397.3

    申请日:2022-06-07

    申请人: 重庆大学

    IPC分类号: G06F8/41 G06N3/0464 G06N3/082

    摘要: 本发明提出了一种面向CNN专用加速器的深度学习编译器优化方法,包括以下之一或者任意组合步骤:S1,通过算子融合和/或bn融合的优化方法减少加速器对内存的访问以及存储空间的浪费,同时使用内存分配地址叠加的方式避免各张量之间的数据覆盖;S2,采用内存共享和编址的方法,并通过特征图深度复制、算子执行顺序交换策略使编译器支持复杂的跳跃连接网络结构;S3,采用优化卷积循环平铺和循环重排的调度策略来提升加速器的性能。