针对GPU程序特征的性能优化方法
    1.
    发明公开

    公开(公告)号:CN116594851A

    公开(公告)日:2023-08-15

    申请号:CN202310390244.4

    申请日:2023-04-12

    IPC分类号: G06F11/34 G06T1/20

    摘要: 本发明公开了一种针对GPU程序特征的性能优化方法,将GPU程序分类数据无关算法、数据共享算法、数据相关算法;针对数据无关算法的数据访问部分,采用片外内存访问优化方法链:向量化访问内存‑>连续访问内存‑>对齐访问内存;针对数据共享算法的数据访问部分,采用数据共享优化方法链为:共享内存‑>Cache‑>片外内存访问优化方法链;针对数据相关的并行算法的数据访问部分,以提高线程间计算结果共享的并行性为目的重新设计和开发GPU程序。本发明实现对GPU程序编程和优化的指导,降低GPU程序优化难度,减轻开发人员负担。

    一种基于消除OpenCL运行时开销提高GPU程序性能的方法

    公开(公告)号:CN114968253A

    公开(公告)日:2022-08-30

    申请号:CN202210465374.5

    申请日:2022-04-29

    IPC分类号: G06F8/41

    摘要: 本申请提供一种基于消除OpenCL运行时开销提高GPU程序性能的方法,所述方法包括:步骤1:构建OpenCL Kerne l编译后代码的高效缓存机制,所述高效缓存机制包括缓存方式和缓存数据结构。步骤2:根据所述高效缓存机制,确定快速查找策略、更新策略及新节点插入方法。步骤3:根据所述快速查找策略、更新策略及新节点插入方法,确定启发式搜索队列的定义、启发式搜索队列的创建及启发式搜索队列的使用。步骤4:根据所述启发式搜索队列,确定运行时对缓存的使用策略,包含查找启发式搜索队列和查找缓存队列,自动判断待调用的OpenCL Kerne l是否需要编译,如果不需要,则返回已经编译好的OpenCL Kerne l;否则调用OpenCL Kerne l编译接口,对该OpenCL Kerne l进行编译,最终实现有效消除OpenCL运行时开销。

    一种基于OPENCL加速的红外小目标识别方法

    公开(公告)号:CN114004728A

    公开(公告)日:2022-02-01

    申请号:CN202111135599.6

    申请日:2021-09-27

    摘要: 一种基于OPENCL加速的红外小目标识别方法,包括如下步骤:通过红外摄像头采集包含检测目标的红外视频图像,并将红外视频图像作为红外小目标检测的输入读取到嵌入式开发板中;在嵌入式开发板中准备OPENCL平台、发现OPENCL设备GPU、生成上下文、创建命令队列、在内核创建输入流输出流、设置内核参数;CPU读出红外图像数据后运用输入流输入到内核中,OPENCL设备GPU运用命令队列和生成的上下文执行内核函数进行红外小目标滑窗检测部分的数据并行计算;将检测结果数据运用输出流读取到CPU中进行后续的检测结果的显示。本发明可以在保证计算精度的前提下较大地减少处理时间,达到快速检测出红外小目标的目的。