文本聚类方法、装置及存储介质
    3.
    发明公开

    公开(公告)号:CN118035447A

    公开(公告)日:2024-05-14

    申请号:CN202410211626.0

    申请日:2024-02-26

    Abstract: 本申请提供一种文本聚类方法、装置及存储介质,涉及自然语言处理领域,能够准确地对文本进行聚类。该方法包括:获取与多个待聚类文本一一对应的多个特征向量;对多个特征向量进行聚类,得到多个第一特征簇,并确定与多个第一特征簇一一对应的多个第二特征簇;第二特征簇所包括的特征向量对应的第一距离小于第二距离,第一距离用于表示第二特征簇所包括的特征向量与第二特征簇对应的第一特征簇的质心之间的距离,第二距离用于表示第二特征簇所包括的特征向量与其他第一特征簇的质心之间的距离;在各第二特征簇的质心与所对应的第一特征簇的质心相同的情况下,将多个第二特征簇确定为多个待聚类文本对应的聚类结果。

    面向分布式大模型流水线并行训练的边缘计算方法及装置

    公开(公告)号:CN119829254A

    公开(公告)日:2025-04-15

    申请号:CN202510024957.8

    申请日:2025-01-07

    Abstract: 本发明公开了面向分布式大模型流水线并行训练的边缘计算方法及装置。该方法的实施过程涵盖了几个关键步骤,旨在高效地处理复杂的深度学习模型和海量数据。首先,系统接收一个大模型训练任务,该任务携带了关键信息,包括大模型的类别、各层的详细结构以及mini‑batch的大小。随后,系统根据这些信息进行深入分析,生成一个专门针对分布式大模型的流水线并行训练调度策略,以优化训练过程并确保资源的高效利用。最后,生成的调度策略将被发送至边缘计算节点,指导这些节点执行大模型训练任务。通过这一系列精心设计的步骤,该方法不仅能够有效实现面向分布式大模型的流水线并行训练,还充分发挥了边缘计算的优势,从而显著提升整体训练效率。

Patent Agency Ranking