基于语言大模型的文档聚类排序方法、系统、设备及介质

    公开(公告)号:CN118152572A

    公开(公告)日:2024-06-07

    申请号:CN202410377375.3

    申请日:2024-03-29

    摘要: 本发明公开了基于语言大模型的文档聚类排序方法、系统、设备及介质,其中方法包括:收集文档数据进行结构化处理与预处理;将文档内容输入语言大模型得到向量化表示;对向量化文档内容使用聚类算法得到文档簇及文档簇中的相似度矩阵,对各文档簇内文档按照相似度矩阵的加权和进行簇内排序,将排序前十的文档标题作为种子文档标题;统计文档簇中的各等级文档数量、文档总数与文档簇相关系数加权和,并计算所述三个指标的加权和,得到各文档簇最终得分,按照得分高低排序;将种子文档标题与设定prompt输入语言大模型生成短句,作为文档簇的类标签。本发明能够使得文档向量化更加准确,类排序依据更加科学,类标签的生成更加具体化、自动化。

    一种目标检测模型动态蒸馏训练方法及装置

    公开(公告)号:CN117636038A

    公开(公告)日:2024-03-01

    申请号:CN202311649881.5

    申请日:2023-12-01

    摘要: 本申请涉及一种目标检测模型动态蒸馏训练方法及装置,涉及深度学习模型优化技术领域,该方法包括以下步骤:利用学生模型及教师模型,对训练图片进行推理,获得各自的预测输出数据;基于学生模型的预测输出数据及训练图片的图片标签,获得学生模型的常规损失函数;筛选获得教师模型的高质量预测输出数据;计算教师模型的高质量预测输出数据和学生模型的预测输出数据之间的蒸馏损失函数;基于蒸馏损失函数及常规损失函数,获得学生模型的总损失函数,并以此训练学生模型。本申请基于大模型高质量的输出动态蒸馏小模型的技术原理,进行模型训练,在检测精度与推理速度之间实现较好的平衡,有效减少工业场景部署目标检测模型所需的人力和训练成本。

    一种分布式数据库动态负载均衡方法

    公开(公告)号:CN112817752B

    公开(公告)日:2023-12-19

    申请号:CN202110084354.9

    申请日:2021-01-21

    IPC分类号: G06F9/50 G06F16/27

    摘要: 本发明公开了一种分布式数据库动态负载均衡方法,通过将分布式数据库划分成多个不同类型的子任务模块,根据子任务模块的类型将用户请求拆分为多个请求子任务,将用户请求的哈希值分别与不同请求子任务进行取模预算得到相应的哈希环数,根据哈希环数查找可以连接服务的数据库服务器;将所有请求子任务所连接的数据库服务器组成该用户请求的数据库服务器集群,将拆分后的多个请求子任务分别传输至与其各自对应连接的数据库服务器进行计算处理,各数据库服务器处理后结果统一反馈至用户,通过根据类型进行划分,能够以更快更高效的对用户请求做出响应并充分的利用分布式数据库中的每一个数据库服务器的性能,同时考虑到动态负载均衡,及时对负载节点的状态进行更新,有效避免出现过载现象。(56)对比文件王诚;李奇源.基于贪心算法的一致性哈希负载均衡优化.南京邮电大学学报(自然科学版).2018,(第03期),全文.