-
公开(公告)号:CN112965921B
公开(公告)日:2024-04-02
申请号:CN202110176789.6
申请日:2021-02-07
IPC分类号: G06F12/1027 , G06F12/1009
摘要: 本发明提供一种多任务GPU中TLB管理方法及系统,包括:当某个程序访问TLB时,基于所述TLB的访问类型查找对应的TLB项;如果查找成功则返回当前虚拟地址对应的物理地址;否则,按照预先设定的访问优先级寻找并确定TLB替换项,并继续访问下一级TLB,直到查找对应的TLB项或者TLB查找完后从页表中确定当前虚拟地址对应的物理地址。本发明相比TLB完全共享机制,降低不同程序因为共享TLB导致的冲突;相比TLB完全隔离机制,提高TLB资源的整体利用率。
-
公开(公告)号:CN112965921A
公开(公告)日:2021-06-15
申请号:CN202110176789.6
申请日:2021-02-07
IPC分类号: G06F12/1027 , G06F12/1009
摘要: 本发明提供一种多任务GPU中TLB管理方法及系统,包括:当某个程序访问TLB时,基于所述TLB的访问类型查找对应的TLB项;如果查找成功则返回当前虚拟地址对应的物理地址;否则,按照预先设定的访问优先级寻找并确定TLB替换项,并继续访问下一级TLB,直到查找对应的TLB项或者TLB查找完后从页表中确定当前虚拟地址对应的物理地址。本发明相比TLB完全共享机制,降低不同程序因为共享TLB导致的冲突;相比TLB完全隔离机制,提高TLB资源的整体利用率。
-
公开(公告)号:CN117608663A
公开(公告)日:2024-02-27
申请号:CN202311349108.7
申请日:2023-10-18
摘要: 本发明公开了一种面向RISC‑V指令集的多发射紧耦合向量浮点部件设计方法及系统,根据预先确定的向量浮点指令集,设计紧耦合向量浮点部件;根据所设计的紧耦合向量浮点部件,设计向量浮点部件的基本框架;对向量浮点指令集中的指令在所设计的基本框架中,以流水线的方式进行交互运算。通过本发明的方法,实现了一种数据级并行的结构技术,提高了处理器的处理性能,且通过锁步流水技术将向量浮点作为多发射处理器中的一条流水线,并实现与其他流水线之间的有效交互,从而达到紧耦合、高性能的目的。
-
公开(公告)号:CN117271307A
公开(公告)日:2023-12-22
申请号:CN202310880141.6
申请日:2023-07-18
IPC分类号: G06F11/36
摘要: 本发明公开了一种面向RISC‑V数据相关性的测试例生成方法、装置及验证系统,该方法包括:根据待测处理器配置启动代码;根据RISC‑V指令集、数据相关性的写或读操作、指令对应的读写寄存器类型、以及指令类型,配置包含多个指令集的指令池;根据期望生成的测试例配置测试例相关参数;根据配置的测试例相关参数从指令池中选取指令,根据选取的指令及指令在指令池中的编写规范,生成指令汇编代码,根据指令汇编代码生成功能测试代码;根据待测处理器配置结束代码;将启动代码、功能测试代码和结束代码依次连接,生成面向RISC‑V数据相关性的测试例。本发明能够高效地生成针对性强的数据相关性测试例,实现对设计的基于RISC‑V指令集的处理器的数据相关性的功能验证。
-
公开(公告)号:CN116841922A
公开(公告)日:2023-10-03
申请号:CN202310687143.3
申请日:2023-06-12
IPC分类号: G06F12/1009 , G06F12/1027 , G06F16/22
摘要: 本发明公开了一种TLB页表项管理方法、装置、设备及存储介质,该TLB页表项管理方法包括以下步骤:建立包含页表项索引与虚拟页号的对应关系的哈希函数,其中,在哈希函数中,TLB中页表项的每一位索引采用虚拟页号的多位异或计算,且对应同一索引位的虚拟页号的多个位数彼此相差页表项索引位数;响应于输入的虚拟地址,基于哈希函数,进行页表项读出、或写入与读出,以完成虚实地址转换。本发明的TLB页表项管理方法、装置、设备及存储介质通过选取虚拟页号不同位进行异或操作来确定虚拟页号对应的页表项索引,进而确定虚拟页号对应的页表项在TLB中的写入与读出位置,能够充分利用TLB的存储空间,并减少比较电路的使用。
-
公开(公告)号:CN116527059A
公开(公告)日:2023-08-01
申请号:CN202310587230.1
申请日:2023-05-24
IPC分类号: H03M7/30
摘要: 本发明公开了一种SNAPPY压缩算法硬件加速器,包括:长度生成模块用于接收待压缩数据,并获取待压缩数据的首地址,待压缩数据的长度和压缩写回数据首地址,将待压缩数据的首地址和待压缩数据的长度发送至读取模块,将压缩写回数据首地址发送至写回模块,将待压缩数据的长度转换为预设格式;读取模块用于读取长度生成模块中的待压缩数据,并将所读取的待压缩数据传输至压缩模块;压缩模块用于将读取模块传输的待压缩数据进行压缩,并将所压缩的数据传输至写回模块;写回模块用于接收来自压缩模块所压缩的数据并进行缓存,并将已压缩的数据发送至主机端。以硬件流水并行的处理能力完成SNAPPY压缩,不占用CPU进行压缩,从而压缩速度快,效率高。
-
公开(公告)号:CN116028220A
公开(公告)日:2023-04-28
申请号:CN202211725446.1
申请日:2022-12-30
IPC分类号: G06F9/50
摘要: 本发明公开了一种用于MCM‑GPU的内存页分配方法,包括:响应于执行的程序,实时判断程序执行的过程中是否发生缺页;若发生缺页,则使用当前设定的内存页分配策略将内存页分配到对应的GPU模块的内存空间;判断当前内存页在不同GPU模块的内存空间的分布是否均衡;若当前内存页在不同GPU模块的内存空间的分布均衡,则使用first‑touch内存页分配策略作为内存页分配策略进行下一个内存页的分配,否则使用round‑robin内存页分配策略作为内存页分配策略进行下一个内存页的分配。本发明能够将内存页尽可能地分配在发起访存请求的GPU模块的内存空间,有效地避免访问远端内存的开销和延迟;同时,能够将内存页尽可能地平均分配到MCM‑GPU中不同GPU模块的内存空间,减少访问冲突。
-
公开(公告)号:CN111815410A
公开(公告)日:2020-10-23
申请号:CN202010644877.X
申请日:2020-07-07
摘要: 本发明公开了一种基于选择性邻域信息的商品推荐方法,该方法包括:获取目标用户的兴趣偏好;获取商品的属性特征;获取与商品有过历史评分记录的所有用户,将所有用户作为目标用户在商品下的邻域信息并确定其兴趣偏好;确定目标用户与邻域信息中每个用户的兴趣偏好的相似性;对邻域信息的兴趣偏好进行融合以得到目标用户的邻域特征信息;确定邻域特征信息的可用性;获取基于邻域信息的目标用户特征信息;获取目标用户对商品的预测评分;选择预测评分最大的若干个商品推荐给目标用户。本发明的方法将邻域信息当作一种辅助信息,自动过滤出相似邻域信息,捕获用户与其邻域信息之间兴趣偏好的一致性,能够有效缓解数据稀疏性问题,显著提高推荐精度。
-
公开(公告)号:CN117608816A
公开(公告)日:2024-02-27
申请号:CN202311349147.7
申请日:2023-10-18
摘要: 本发明公开了一种减少GPU片上互连网络拥塞的GPU优化方法,其特征在于,包括:将若干流处理器划分为若干集群;对GPU应用程序访存局部特性进行分析,相邻线程块block存在对同一个cache行的访问;提出将来自同一个集群的不同流处理器访问同一个cache行的冗余请求进行合并处理的方法,通过分析GPU应用程序访存局部性特点,不同的block的请求会访问同一个cache行的基础上,将来自同一个集群不同SM的冗余请求进行合并,从而达到减少网络拥塞,提高GPU性能的目的。
-
公开(公告)号:CN116909729A
公开(公告)日:2023-10-20
申请号:CN202310620267.X
申请日:2023-05-30
IPC分类号: G06F9/50
摘要: 本发明公开了一种GPU多任务调度方法,该方法用于具有cluster结构的GPU,包括:当多个任务分配到GPU时,根据GPU的每个cluster结构中SM的空闲情况进行任务分配,在完成SM分配后开始运行任务;在任务运行阶段,根据任务的计算访存特征,实时调整cluster结构中分配给不同任务的SM。本发明的GPU多任务调度方法在任务到来时先根据SM空闲情况进行SM的初步分配,基于初步分配的SM运行任务,而后在任务运行阶段,根据任务的计算访存特征实时动态地调整分配给不同任务的SM,既能够提高片上网络资源的利用率,又能够缓解cluster网络端口的冲突,保证任务运行时的性能。
-
-
-
-
-
-
-
-
-