基于FPGA的聚类算法的加速系统及其设计方法

    公开(公告)号:CN106383695A

    公开(公告)日:2017-02-08

    申请号:CN201610822554.9

    申请日:2016-09-14

    IPC分类号: G06F9/30 G06F9/38

    摘要: 本发明公开了一种基于FPGA的聚类算法的加速系统及其设计方法,包括:通过profiling技术获得各算法的关键代码;细化各算法的关键代码并提取相同的功能逻辑(公共算子);使用分块技术重新设计代码结构以提高数据局部性的利用率,减少片外的访存次数;设计扩展语义的指令集并实现指令集对应的各个功能逻辑部件,通过指令的取指、译码、执行的操作完成关键代码的功能;设计加速器的加速框架并生成IP核;移植操作系统到开发板,在操作系统下完成软硬件的协同工作。能够支持多种聚类算法,可以提高硬件加速器的灵活性和通用性;采用分块技术重构各个算法的代码的目的是减少片外访存的次数以降低片外访存的带宽对加速器加速效果的影响。

    现场可编程门阵列平台上加速深度学习算法的方法和系统

    公开(公告)号:CN106228238A

    公开(公告)日:2016-12-14

    申请号:CN201610596159.3

    申请日:2016-07-27

    IPC分类号: G06N3/06 G06N3/08

    CPC分类号: G06N3/063 G06N3/08

    摘要: 本发明公开了一种现场可编程门阵列平台上加速深度学习算法的方法,现场可编程门阵列平台包括通用处理器、现场可编程门阵列以及存储模块,包括以下步骤:根据深度学习预测过程和训练过程,并结合深度神经网络和卷积神经网络,确定适用于现场可编程门阵列平台上运行的通用计算部分;根据确认的通用计算部分,确定软硬件协同计算方式;根据FPGA的计算逻辑资源、带宽情况,确定IP核固化的数量和种类,利用硬件运算单元,在现场可编程门阵列平台上进行加速。能够根据硬件资源快速设计出针对深度学习算法加速的硬件处理单元,处理单元相对于通用处理器有高性能、低功耗特点。

    现场可编程门阵列平台上加速深度学习算法的方法和系统

    公开(公告)号:CN106228238B

    公开(公告)日:2019-03-22

    申请号:CN201610596159.3

    申请日:2016-07-27

    IPC分类号: G06N3/06 G06N3/08

    摘要: 本发明公开了一种现场可编程门阵列平台上加速深度学习算法的方法,现场可编程门阵列平台包括通用处理器、现场可编程门阵列以及存储模块,包括以下步骤:根据深度学习预测过程和训练过程,并结合深度神经网络和卷积神经网络,确定适用于现场可编程门阵列平台上运行的通用计算部分;根据确认的通用计算部分,确定软硬件协同计算方式;根据FPGA的计算逻辑资源、带宽情况,确定IP核固化的数量和种类,利用硬件运算单元,在现场可编程门阵列平台上进行加速。能够根据硬件资源快速设计出针对深度学习算法加速的硬件处理单元,处理单元相对于通用处理器有高性能、低功耗特点。