一种嵌入式GPU的低功耗光栅化设计方法

    公开(公告)号:CN118505887B

    公开(公告)日:2024-11-08

    申请号:CN202410959442.2

    申请日:2024-07-17

    发明人: 张彦芳 秦泰 呙涛

    摘要: 本发明提供一种嵌入式GPU的低功耗光栅化设计方法,包括:对视窗变换后的图元进行光栅化处理,得到离散片段,基于片段着色器对片段进行着色;对视窗变换后的图元进行光栅化处理,包括:接收视窗变换下发的数据,对所述数据进行解析,采用通用数据存储方式对解析出的图元数据进行存储;对图元进行初始化,计算图元的初始化参数,并基于图元的初始化参数,采用并行扫描方式对图元进行插值扫描。本发明对图元数据进行存储,使得在对上一个图元进行插值扫描的同时,能够对下一个图元进行初始化,提高图元渲染的效率,采用并行扫描方式对图元进行插值扫描,可加速图元的渲染。

    一种寄存器数据存储方法及访问方法

    公开(公告)号:CN118733124A

    公开(公告)日:2024-10-01

    申请号:CN202411225814.5

    申请日:2024-09-03

    IPC分类号: G06F9/30 G06F9/34 G06F9/38

    摘要: 本发明提供一种寄存器数据存储方法及访问方法,存储方法包括:将不同线程束Warp的相同编号的线程Thread的寄存器数据存放到同一个存储体Bank中,将同一个Warp的不同线程的寄存器数据存放到不同的Bank中;不同Warp的相同编号的线程的寄存器数据在同一个Bank中各自只占一个地址;将一个Bank按列平均拆分为多个位宽相同的子Bank,每个线程的寄存器数据连续平均存储在不同的子Bank中。本发明解决了GPU线程访问数据的冲突,减少无效操作数的读取,不引入额外的时间开销,并在此基础上尽可能减少Bank的数量,通过在硬件层面对数据进行存储划分解决冲突,不造成软件方面的开销。

    一种基于批量片段处理的ROP单元组处理方法

    公开(公告)号:CN117237182A

    公开(公告)日:2023-12-15

    申请号:CN202311525833.5

    申请日:2023-11-16

    IPC分类号: G06T1/20 G06T1/60

    摘要: 本发明适用于GPU技术领域,提供一种基于批量片段处理的ROP并行处理实现方法,包括:构建ROPs顶层结构;SMPU将着色后的片段数据或者当前的配置命令通过ROP调度机发送至相应的ROP加速单元;每个ROP加速单元对接收到的片段数据或者配置命令进行相应操作,其中对于片段数据,以Pipeline的方式批量操作,操作完成后将颜色信息写入像素缓冲区中,模板深度信息写入到模板深度缓冲区中。本发明设计了全新的ROPs顶层结构,易实现,易扩展,同时,通过本发明方法,实现大块数据持续处理,能够使得Pipeline在大多情况下处于灌满状态,Pipeline一旦灌满数据吞吐量也将达到最大值,像素填充率也大大提升,从而提高了图形处理器整体处理性能。

    一种基于多级Cache高速缓存的GPU存储结构

    公开(公告)号:CN118505492B

    公开(公告)日:2024-10-22

    申请号:CN202410959550.X

    申请日:2024-07-17

    摘要: 本发明提供一种基于多级Cache高速缓存的GPU存储结构,主要从多个流多处理器结构来考虑高性能的GPU存储结构及缓存系统的设计,本发明技术方案的核心体现在加速流多处理器内部数据的存储与加载以及提升流多处理器间数据的交互与共享。为此从GPU的应用场景及渲染过程考虑,设计了线程的私有存储、流处理器内Uniform单元存储、流多处理器间的共享内存Share Memory存储和片外DDR显存存储的完整存储结构以及两级Cache高速缓存既减少了片上资源的占用又减轻了片外存储的访问带宽,同时也加速了GPU数据的加载与传输。

    一种GPU命令异常恢复方法
    5.
    发明公开

    公开(公告)号:CN118503016A

    公开(公告)日:2024-08-16

    申请号:CN202410953968.X

    申请日:2024-07-17

    IPC分类号: G06F11/14 G06F11/07

    摘要: 本发明适用于GPU设计领域,提供一种GPU命令异常恢复方法,包括:S1、命令包缓存和发送;S2、异常判断;S3、未出现异常命令时,执行命令并释放缓存命令包;S4、出现异常命令时,异常反馈并定位命令包和命令重发。本发明通过CPU缓存命令包,GPU反馈命令异常位置,然后进行异常命令的位置定位,只将异常命令位置及以后的命令重发,在最小影响范围内修正了命令执行出错的问题,并在GPU的FEP单元执行成功后CPU清理缓存,做到了对整个系统负面影响最小的情况下解决了GPU执行命令出现异常的问题。实现了对CPU和GPU的工作进行协调与同步,在GPU检测到命令出错时恢复正常命令,以便保证渲染结果与预期一致。

    一种GPU编译器前置属性配置方法
    6.
    发明公开

    公开(公告)号:CN118689488A

    公开(公告)日:2024-09-24

    申请号:CN202411161599.7

    申请日:2024-08-23

    IPC分类号: G06F8/41 G06T1/20 G06F9/30

    摘要: 本发明提供一种GPU编译器前置属性配置方法,基于start.s文件获取每一个线程的属性配置表;根据配置信息,从缓存和属性缺省值表中提取对应的顶点数据,将提取的顶点数据存放于input寄存器中;加载每一个线程的SP寄存器的基地址,基于SP寄存器建立线程id和SP栈空间基地址的对应关系;将对应关系发送给硬件设备;硬件设备根据线程id,从input寄存器中提取出对应的顶点数据,放置到对应的SP栈空间进行处理操作。本发明应对编程实现过程中的挑战,简化处理顶点数据、索引数据和属性数据的关联与绑定等方面的复杂操作,降低技术难点,降低开发人员在实际设计过程中的开发难度。

    一种嵌入式GPU的低功耗光栅化设计方法

    公开(公告)号:CN118505887A

    公开(公告)日:2024-08-16

    申请号:CN202410959442.2

    申请日:2024-07-17

    发明人: 张彦芳 秦泰 呙涛

    摘要: 本发明提供一种嵌入式GPU的低功耗光栅化设计方法,包括:对视窗变换后的图元进行光栅化处理,得到离散片段,基于片段着色器对片段进行着色;对视窗变换后的图元进行光栅化处理,包括:接收视窗变换下发的数据,对所述数据进行解析,采用通用数据存储方式对解析出的图元数据进行存储;对图元进行初始化,计算图元的初始化参数,并基于图元的初始化参数,采用并行扫描方式对图元进行插值扫描。本发明对图元数据进行存储,使得在对上一个图元进行插值扫描的同时,能够对下一个图元进行初始化,提高图元渲染的效率,采用并行扫描方式对图元进行插值扫描,可加速图元的渲染。

    一种基于多核阵列的自适应向量加速处理方法

    公开(公告)号:CN117608841A

    公开(公告)日:2024-02-27

    申请号:CN202311612726.6

    申请日:2023-11-29

    IPC分类号: G06F9/50 G06T1/20

    摘要: 本发明适用于GPU技术领域,提供一种基于多核阵列的自适应向量加速处理方法,包括:从总体任务中分离出向量计算程序以及程序执行次数,确定任务量;将所述向量计算程序输入至编译器,分别按照循环处理和分量并行两种方式编译出各自的可执行指令;计算切换参数;当切换参数大于设定值时,采用循环处理方式,当切换参数小于设定值时,采用分量并行方式。本发明是一种高效的向量计算方法,引入任务量这一维度,通过计算切换参数动态选择使用分量并行和循环处理两种处理方式,从而使多核阵列的向量计算在不同任务量的情况下均可以保持较高的效率。

    一种基于多级Cache高速缓存的GPU存储结构

    公开(公告)号:CN118505492A

    公开(公告)日:2024-08-16

    申请号:CN202410959550.X

    申请日:2024-07-17

    摘要: 本发明提供一种基于多级Cache高速缓存的GPU存储结构,主要从多个流多处理器结构来考虑高性能的GPU存储结构及缓存系统的设计,本发明技术方案的核心体现在加速流多处理器内部数据的存储与加载以及提升流多处理器间数据的交互与共享。为此从GPU的应用场景及渲染过程考虑,设计了线程的私有存储、流处理器内Uniform单元存储、流多处理器间的共享内存Share Memory存储和片外DDR显存存储的完整存储结构以及两级Cache高速缓存既减少了片上资源的占用又减轻了片外存储的访问带宽,同时也加速了GPU数据的加载与传输。

    一种基于批量片段处理的ROP单元组处理方法

    公开(公告)号:CN117237182B

    公开(公告)日:2024-02-13

    申请号:CN202311525833.5

    申请日:2023-11-16

    IPC分类号: G06T1/20 G06T1/60

    摘要: 本发明适用于GPU技术领域,提供一种基于批量片段处理的ROP并行处理实现方法,包括:构建ROPs顶层结构;SMPU将着色后的片段数据或者当前的配置命令通过ROP调度机发送至相应的ROP加速单元;每个ROP加速单元对接收到的片段数据或者配置命令进行相应操作,其中对于片段数据,以Pipeline的方式批量操作,操作完成后将颜色信息写入像素缓冲区中,模板深度信息写入到模板深度缓冲区中。本发明设计了全新的ROPs顶层结构,易实现,易扩展,同时,通过本发明方法,实现大块数据持续处理,能够使得Pipeline在大多情况下处于灌满状态,Pipeline一旦灌满数据吞吐量也将达到最大值,像素填充率也大大提升,从而提高了图形处理器整体处理性能。