-
公开(公告)号:CN118798193A
公开(公告)日:2024-10-18
申请号:CN202410282479.6
申请日:2024-03-12
申请人: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
IPC分类号: G06F40/289 , G06F40/186 , G06F40/103 , G06F18/214
摘要: 本申请公开了一种训练文本处理方法、装置、电子设备、存储介质及计算机程序产品,其中,方法包括:基于大语言模型的token长度、每个token的字符数以及第一训练文本的元数据的长度,计算所述第一训练文本的平均有效文本序列长度;基于所述平均有效文本序列长度,将所述第一训练文本切割为一个或多个第一有效文本序列;在所述一个或多个第一有效文本序列中的每个第一有效文本序列的头部分别添加所述元数据,得到一个或多个第二有效文本序列;对所述一个或多个第二有效文本序列依序拼接,得到第二训练文本,以用于大语言模型的训练。
-
公开(公告)号:CN118821930A
公开(公告)日:2024-10-22
申请号:CN202410564031.3
申请日:2024-05-08
申请人: 中国移动通信集团福建有限公司 , 中国移动通信集团有限公司
IPC分类号: G06N5/025 , G06F16/36 , G06F16/31 , G06F16/335
摘要: 本申请提出一种数据处理方法、装置、电子设备及存储介质,其中,方法包括:基于从第一故障的第一工单数据中提取的案例实体构建第一知识图谱,基于从第一故障各处理阶段的行为数据中提取的案例实体构建第二知识图谱,之后,对第一知识图谱中案例简述实体进行关键词提取及筛选,以基于筛选出的关键词确定第一故障对应的第一故障类型,然后,基于第一故障类型在第一知识图谱中添加类型实体后,基于问题编号实体将第一知识图谱及第二知识图谱关联,生成第一故障对应的历史知识图谱。规范化了故障行为数据及故障工单数据,提高了故障数据的可读性。为识别故障原因和挖掘最佳网络故障解决方案提供高质量的数据支撑。
-