面向RDMA UD传输的可靠通信方法、电子设备及可读介质

    公开(公告)号:CN118200253A

    公开(公告)日:2024-06-14

    申请号:CN202410488072.9

    申请日:2024-04-22

    发明人: 林宝洪 王军良

    摘要: 本公开提供了一种面向RDMA UD传输的可靠通信方法、电子设备及可读介质,属于计算机技术领域。该方法在发送端设置第一抽象层对接第一应用层与封装第一实现层,在第一应用层发起数据发送申请时,第一抽象层获取下发的原始数据,并通过第一实现层对原始数据基于动态MTU进行分片,获得数据段,以及封装并下发对应的WQE,在该WQE对应的数据段中添加排序头;再获取指向接收端中对应QP的远端通信信息,添加到排序头中,进而对数据段执行基于UD传输的乱序发送,以使接收端基于WQE解析排序头将数据段按序写入到对应用户缓冲区,以及根据远端通信信息进行分发。该方法通过抽象层接管,能够统一处理以提升网络性能,以及通过数据重排序和分发,提升数据传输的可靠性。

    RDMA报文信息重传方法、装置、电子设备及存储介质

    公开(公告)号:CN117692389A

    公开(公告)日:2024-03-12

    申请号:CN202311774606.6

    申请日:2023-12-21

    发明人: 林宝洪 王军良

    摘要: 本公开提供了一种RDMA报文信息重传方法、装置、电子设备及存储介质,涉及通信技术领域。该方法包括:获取待重传的至少一个工作队列元素WQE,其中,每个WQE用于记录待重传RDMA报文的元数据信息,待重传的至少一个WQE来自一个或多个队列对QP,每个QP对应一个重传优先级;根据每个WQE所属QP对应的重传优先级,为待重传的每个WQE配置对应的重传时延,其中,每个WQE的重传时延与重传优先级成负相关;根据待重传的每个WQE对应的重传时延,通过相应的QP对待重传的各个WQE进行重传。本公开避免了RDMA网络中QP并发重传的情况,减少了RDMA网络拥塞情况的发生,减少出现数据丢包出错等问题,进而减少重传数量,提高了整体通信效率。

    远程直接内存访问的数据重传方法及相关设备

    公开(公告)号:CN117692109A

    公开(公告)日:2024-03-12

    申请号:CN202311775361.9

    申请日:2023-12-21

    发明人: 林宝洪 王军良

    IPC分类号: H04L1/1829 H04L1/1867

    摘要: 本公开提供了一种远程直接内存访问的数据重传方法及相关设备,涉及数据处理技术领域。该方法包括:获取多条待重传任务,多条待重传任务的元数据存储于未完成请求表中;根据各条待重传任务的元数据确定对应的重传数据包的数据量;根据多个重传数据包的数据量确定重传组合,重传组合中包括至少两个重传子组,各个重传子组内包括至少一个重传数据包,不同重传子组内的重传数据包的数据量满足预设条件;按照预设规则对至少两个重传子组的重传数据包执行数据重传,从而解决大小包的传输问题,提升业务质量,提升重传效率,缓解重传等待对拥塞造成的不利影响。

    一种网络可靠性评估方法、装置、设备及计算机存储介质

    公开(公告)号:CN117081958A

    公开(公告)日:2023-11-17

    申请号:CN202311270472.4

    申请日:2023-09-27

    发明人: 王军良 林宝洪

    IPC分类号: H04L43/0805 H04L43/067

    摘要: 本申请提供一种网络可靠性评估方法、装置、设备及计算机存储介质,包括:在任意一个业务的仿真过程中,确定任意一个业务对应的PCC包括的多个节点;基于节点在仿真过程包括的各时间段的节点状态确定PCC对应的目标时间段的总时长;基于各PCC对应的目标时间段的总时长和仿真时长确定各PCC对应的可靠性,其中各PCC对应的可靠性表征对应PCC的可靠程度;根据各PCC的可靠性,确定RDMA网络的可靠性;用于解决评估RDMA网络可靠性计算复杂且无法评估复杂RDMA网络的问题,提高评估RDMA网络可靠性的效率。

    数据传输方法、装置、电子设备及存储介质

    公开(公告)号:CN117834752A

    公开(公告)日:2024-04-05

    申请号:CN202410011596.9

    申请日:2024-01-03

    发明人: 林宝洪 王军良

    IPC分类号: H04L69/16 H04L41/16

    摘要: 本公开提供了一种数据传输方法、装置、电子设备及存储介质,涉及计算机技术领域。方法包括:根据至少一个源客户端发送的指令请求确定待发送数据;根据各个队列对QP通道对应的数据块值对待发送数据进行切分重组处理,得到与各个QP通道对应的数据块值对应的数据包,任一QP通道对应的数据块值描述QP通道用于传输的数据的大小;通过对应的QP通道向接收节点发送各个数据包。本公开能够有效减少QP通道的数量,并可以避免数据传输时头部阻塞、长尾时延大等问题,提高QP通道数据传输性能与RDMA网络性能,确保AI大模型训推效率。

    集群的可靠度确定方法、装置、设备、介质及程序产品

    公开(公告)号:CN118897715A

    公开(公告)日:2024-11-05

    申请号:CN202411081389.7

    申请日:2024-08-07

    发明人: 王军良 林显成

    IPC分类号: G06F9/455

    摘要: 本公开提供了一种集群的可靠度确定方法、装置、设备、介质及程序产品,该方法包括:获取集群中多个节点的可靠度信息,根据蒙特卡洛算法和多个节点的可靠度信息,对多个节点的可靠性状态进行动态仿真,生成每个节点在仿真时间段内的可靠性状态,统计集群中的PPC,根据每个节点在仿真时间段内的可靠性状态,确定每个PPC在仿真时间段内的可靠性状态,根据每个PPC的可靠性状态,确定集群的可靠性。通过蒙特卡洛算法以仿真模拟集群处理任务的过程,以处理任务的整个过程作为统计基准,PPC中节点不固定,节点资源分配变化,不会影响对PPC的可靠性的分析,根据是否能够处理任务来确定可靠性,无需在手动计算,可以提高准确性和可靠度确定的效率。

    数据传输任务的处理方法及装置、存储介质、电子设备

    公开(公告)号:CN118413499A

    公开(公告)日:2024-07-30

    申请号:CN202311772079.5

    申请日:2023-12-21

    发明人: 王军良 林宝洪

    摘要: 本公开是关于一种数据传输任务的处理方法及装置、存储介质、电子设备,涉及大规模网络技术领域,该方法包括:主机侧响应于目标应用程序下发的数据发送任务,将数据发送任务的发送任务描述符写入任务发送队列,并确定发送任务描述符在任务发送队列中的任务序列编码;主机侧根据任务序列编码以及任务优先级生成新增任务信号,并将新增任务信号发送至网卡侧;网卡侧根据新增任务信号中的任务序列编码确定数据发送任务的任务等待值;网卡侧在确定数据发送任务满足任务调度条件时,将数据发送任务写入任务等待队列,并根据发送任务描述符以及任务优先级对任务等待队列中的数据发送任务进行处理。本公开提高了数据发送任务的处理效率。

    网络业务故障监测方法、装置、电子设备及存储介质

    公开(公告)号:CN116708135B

    公开(公告)日:2023-11-07

    申请号:CN202310993264.0

    申请日:2023-08-08

    发明人: 王军良 刘艺

    IPC分类号: H04L41/0631

    摘要: 本公开提供了一种网络业务故障监测方法、装置、电子设备及存储介质,涉及计算机技术领域。该方法包括:获取各个业务类型包括的网络参数信息,以及各个业务类型对应的业务状态信息;计算每个业务类型包括的各个网络参数信息与对应业务状态信息之间的相关程度信息;将各个业务类型中该相关程度信息满足预设程度条件的网络参数信息作为目标监测参数;对目标监测参数进行监测。本公开筛选出了对业务状态最为相关的至少一个目标网络参数。仅对目标网络参数进行监测可以有效降低监测量,提高监测效率。另外,本公开基于业务类型对网络参数信息进行分类,可以分别确定各个业务类型对应的目标网络参数,提高网络业务故障监测的灵活性、准确性与可靠性。