一种面向CPU+DCU异构混合架构的稀疏化AMG优化方法

    公开(公告)号:CN116150553A

    公开(公告)日:2023-05-23

    申请号:CN202310215144.8

    申请日:2023-03-01

    Abstract: 本发明公开了一种面向CPU+DCU异构混合架构的稀疏化AMG优化方法,属于高性能计算与算法技术领域;本发明提出一种面向CPU+DCU异构混合架构的稀疏化AMG优化方法,在形成粗网格层次结构后,通过并行方式去除矩阵中的弱连接或不重要的元素(非零元素)来对层次矩阵进行稀疏化优化,可以降低后续设置阶段并行的通信成本。本发明还对粗网格矩阵生成过程中涉及到的大量三个矩阵乘运算针对超算CPU+DCU异构混合架构进行并行优化,进一步提升了AMG方法的预处理效率。

    快堆同构组件全堆芯棒束-子通道映射构建方法及系统

    公开(公告)号:CN111159870B

    公开(公告)日:2021-12-03

    申请号:CN201911330466.7

    申请日:2019-12-20

    Abstract: 本发明提供一种快堆同构组件全堆芯棒束‑子通道映射构建方法及系统,该方法通过引入“元结构”、“对位和”、“对边和”和“共位和”等概念,首先构建组件级棒束‑子通道映射关系,然后构建堆芯级组件‑组件映射关系。可以自动构建至少包含一个棒束,拥有一个组件的快堆全堆芯棒束‑规则子通道映射或全堆芯棒束‑非规则子通道映射,主要应用是:a.查询已知棒束周围棒束和周围子通道;b.查询已知子通道周围子通道和周围棒束。可解决现有棒束‑子通道映射构建方法所构建的映射模型只针对单个快堆六边形组件,且现有的棒束‑子通道映射构建方法不适用于快堆全堆芯棒束‑子通道映射构建的问题。

    快堆同构组件全堆芯棒束-子通道映射构建方法及系统

    公开(公告)号:CN111159870A

    公开(公告)日:2020-05-15

    申请号:CN201911330466.7

    申请日:2019-12-20

    Abstract: 本发明提供一种快堆同构组件全堆芯棒束-子通道映射构建方法及系统,该方法通过引入“元结构”、“对位和”、“对边和”和“共位和”等概念,首先构建组件级棒束-子通道映射关系,然后构建堆芯级组件-组件映射关系。可以自动构建至少包含一个棒束,拥有一个组件的快堆全堆芯棒束-规则子通道映射或全堆芯棒束-非规则子通道映射,主要应用是:a.查询已知棒束周围棒束和周围子通道;b.查询已知子通道周围子通道和周围棒束。可解决现有棒束-子通道映射构建方法所构建的映射模型只针对单个快堆六边形组件,且现有的棒束-子通道映射构建方法不适用于快堆全堆芯棒束-子通道映射构建的问题。

    一种用于材料位错动力学模拟异构优化的远程力加速方法

    公开(公告)号:CN119049608B

    公开(公告)日:2025-04-25

    申请号:CN202411120024.0

    申请日:2024-08-15

    Abstract: 本发明公开了一种用于材料位错动力学模拟异构优化的远程力加速方法,属于面向核材料辐照损伤计算模拟应用技术领域和高性能计算技术领域;本发明包括:(1)制定位错段归属规则:每个位错段在MLFMA中只归属一个单位,根据位错段的特性,确定位错段与单元的归属规则;(2)设计异构友好存储结构:分别针对上行遍历与下行遍历的特点,设计Dis_segment_vector和HashCellList两种异构存储连续的数据结构;(3)设计异构并行算法:利用异构友好的存储结构,分别针对最底层单元的位错段聚集和逐层位错因子转移操作,基于异构架构设计并行算法。本发明使借助多层展开层数增加的同时减少位错间相互作用计算成本,并保证最大限度降低总模拟时长,提高DDD的模拟速度。

    面向DCU集群的大规模有限元网格并行分区的方法及装置

    公开(公告)号:CN113239591B

    公开(公告)日:2023-10-27

    申请号:CN202110541398.X

    申请日:2021-05-18

    Abstract: 本发明涉及高性能计算技术领域,特别是指一种面向DCU集群的大规模有限元网格并行分区的方法及装置,该方法包括:将求解区域离散为网格,通过带权对偶图描述离散所得的网格的分布情况,其中,所述带权对偶图中的顶点表示网格,所述带权对偶图中的边表示网格间的连接关系,通过子图划分任务的并行,可以极大提高递归谱二分法划分的速度,而且,在子图划分并行之上,还可以进行谱二分法计算热点的并行,进一步缩短了有限元网格划分的处理时间,解决了串行递归谱二分法存在着划分大规模网格时间需求过长的问题,使得解决问题的效率大大提高。

    一种自适应稀疏矩阵向量乘策略选择及优化方法

    公开(公告)号:CN114491401A

    公开(公告)日:2022-05-13

    申请号:CN202210066813.5

    申请日:2022-01-20

    Abstract: 本发明公开了一种自适应稀疏矩阵向量乘策略选择及优化方法,适用于GPU架构,该方法包括:对待处理矩阵按行进行分块,统计各矩阵子块的非零元素数,若各矩阵子块的非零元素数差别倍数高于第一预设阈值,则采用自适应的CSR‑Vector算法进行处理;统计待处理矩阵的行平均非零元素个数,若矩阵行平均非零元素个数低于第二预设阈值,则采用改进的CSR‑Stream算法进行求解;统计待处理矩阵的非零元素个数,若其非零元素个数大于第三预设阈值,则采用hola算法进行求解;若以上条件均不满足,则采用CSR‑Vector算法进行求解。本发明实现了针对不同应用问题的自适应高效SpMV求解。

    一种快中子反应堆全堆子通道几何建模方法及系统

    公开(公告)号:CN111090943A

    公开(公告)日:2020-05-01

    申请号:CN201911310579.0

    申请日:2019-12-18

    Abstract: 本发明提供一种快中子反应堆全堆子通道几何建模方法及系统,所述方法包括:以第一预设坐标系为基准,计算出每一组件的中心棒束的中心坐标,将各组件的中心棒束的中心坐标以第一预设数据结构存储;以第二预设坐标系为基准,基于各组件的中心棒束的中心坐标,计算出各组件中每一棒束的中心坐标,将各棒束的中心坐标以第二预设数据结构存储;根据围成当前子通道的棒束的中心坐标计算当前子通道的中心坐标,将各子通道的中心坐标以第三预设数据结构存储。本发明的全堆子通道几何建模方法可以解决快堆堆芯结构复杂、相关位置坐标难以表示及热工流体大规模并行计算所需几何信息困难的问题。

    一种面向GPU和DCU架构的Flash Sort算法优化方法

    公开(公告)号:CN116680073A

    公开(公告)日:2023-09-01

    申请号:CN202310653455.2

    申请日:2023-06-02

    Abstract: 本发明公开了一种面向GPU和DCU架构的Flash Sort算法优化方法,属于高性能计算与算法技术领域;本发明在不同级别上(device/block/wavefront)处理数组A(数组A为待排序数组),根据待排序数组内的元素数值范围设定桶的数量,并按照桶内的元素数量对数组的存储地址重新进行划分,将数组内的元素存储到对应的桶中。将线程划分为若干线程组,每个线程组共同完成一个桶内的元素的排序,每个线程负责桶内多个元素的排序,并预先在LDS上分配存储空间,有效解决了现有技术所存在的资源占用率低,总体性能不高的问题。

Patent Agency Ranking