-
公开(公告)号:CN118939757A
公开(公告)日:2024-11-12
申请号:CN202410990608.7
申请日:2024-07-23
申请人: 浙江大学 , 杭州高新区(滨江)区块链与数据安全研究院
IPC分类号: G06F16/33 , G06F16/338 , G06F16/31 , G06F40/216
摘要: 本发明公开了一种基于大语言模型的零样本跨语言重排序方法、电子设备、介质,包括:获取若干语言种类对应的查询,以及若干语言种类对应的文档数据;对每一语言种类对应的文档数据建立词条到文档的映射,得到对应的倒排索引;将查询输入至该语言种类对应的倒排索引,得到每一查询对应的第一重排文档列表;对于每一查询,将查询分解为若干个子查询,对该查询对应的第一重排文档列表中的每一文档设置唯一标志符;设置提示词模板,将查询、子查询、第一重排文档列表、每一文档对应的唯一标志符、提示词模板输入至大语言模型中,输出每一文档与查询的相关性标志符排序,得到每一查询对应的第二重排文档列表。
-
公开(公告)号:CN118569356A
公开(公告)日:2024-08-30
申请号:CN202410729737.0
申请日:2024-06-06
申请人: 浙江大学 , 杭州高新区(滨江)区块链与数据安全研究院
IPC分类号: G06N3/098 , G06N3/0475 , G06N3/045 , G06N3/094 , G06N5/04 , H04L67/10 , G06V10/82 , G06V10/94 , G06V10/764 , G16H50/20
摘要: 本发明公开了一种基于分组生成及联邦学习的业务执行方法、设备、介质,应用于客户端,包括:接收服务器下发的基准数据集、初始化的业务执行网络和生成对抗网络;利用本地数据集对业务执行网络进行训练,从而在基准数据集上进行推断,统计各标签的准确率组成向量;每一组别参与联邦学习的每轮迭代训练过程,包括对生成对抗网络进行训练;将高斯噪声输入随机选取的若干个经服务器聚合得到的全局对抗生成模型得到合成样本集;其中,每一组别是服务器基于经阈值截断、随机翻转的准确率组成向量对客户端进行分组得到;利用合成样本集和本地数据集对重新初始化的业务执行网络进行训练;接收经服务器聚合得到的全局业务执行网络,以此执行业务任务。
-
公开(公告)号:CN117675344A
公开(公告)日:2024-03-08
申请号:CN202311658001.0
申请日:2023-12-05
申请人: 浙江大学
摘要: 本发明公开了一种针对梯度放大攻击的防御方法、电子设备、介质,所述方法包括:服务器获取每一参与者上传的本地模型梯度,并计算每一本地模型梯度的L2值,得到L2值集合L2(N);根据L2值集合L2(N)设置检验阈值;根据检验阈值对每一本地模型梯度的L2值进行检验,当本地模型梯度的L2值小于检验阈值时,通过检验;基于通过检验的本地模型梯度更新全局模型。本发明方法通过检验模型梯度的二范数值来识别欺诈者,能够有效地抵制恶意参与者的梯度放大攻击行为。
-
公开(公告)号:CN111475500A
公开(公告)日:2020-07-31
申请号:CN202010279614.3
申请日:2020-04-10
申请人: 浙江大学
IPC分类号: G06F16/215
摘要: 本发明公开了一种自动发现审计规则和异常数据的方法。该方法先将审计的数据集按照属性类型分成分类属性和数值属性,用户再分别给定分类属性的最小支持率和数值属性的偏移率,然后在分类属性中选出支持率高于最小支持率的候选分类属性和属性值;再根据属性类型生成候选属性集,从而获取审计规则;最后根据获取的审计规则,依次对收集的审计数据集进行筛选,选出符合审计规则中满足条件约束的,而派生属性的属性值不在正常值范围内的数据,即为异常数据。该自动发现审计规则和异常数据方法能够有效地提高审计效率,降低审计成本。
-
公开(公告)号:CN108924778B
公开(公告)日:2020-05-22
申请号:CN201810778007.4
申请日:2018-07-16
申请人: 浙江大学
摘要: 本发明公开了一种面向非实时快照位置数据的签到用户近似搜索方法。读入非实时快照位置数据,建立室内分区空间索引;输入查询区域计算查询区域对应的保底区域和浮动区域;以浮动区域作为空间范围查询的查询条件,在室内分区空间索引上搜索移动用户;根据搜索到的移动用户的快照位置数据,构建不确定移动区域,判定移动用户为确定签到用户或可能签到用户,并放入对应集合中;将确定签到用户集合和可能签到用户集合作为近似搜索结果返回给图形界面进行展示。本发明方法在无线定位数据采样频率低、内存维护数据条件有限的场景下,搜索当前时刻可能在特定查询区域进行签到的用户时,能同时保证搜索过程的高效性和完整有效性。
-
公开(公告)号:CN118503435B
公开(公告)日:2024-10-11
申请号:CN202410977333.3
申请日:2024-07-22
申请人: 浙江大学 , 杭州高新区(滨江)区块链与数据安全研究院
IPC分类号: G06F16/35 , G06F18/214 , G06N3/045 , G06N3/0495 , G06N3/084 , G06N3/0895 , G06N3/096 , G06N3/0455
摘要: 本发明公开了一种基于知识融合的多未知领域文本分类方法、设备、介质,包括:基于预先训练好的n个教师模型构建2n‑1个教师模型组合;对每一个仅包含一个教师模型的教师模型组合进行第一采样,得到训练好的学生模型及其分类准确率,将教师模型组合‑分类准确率数据对作为初始的观测信息;基于当前的观测信息选择教师模型组合;若被选择的教师模型组合为已被采样的教师模型组合,则将观测信息中最大分类准确率对应的学生模型作为文本分类模型;若被选择的教师模型组合为没有被采样且包含两个及以上教师模型时,对该教师模型组合进行第二采样,得到训练好的学生模型及其分类准确率,更新观测信息;通过文本分类模型确定待分类文本的分类结果。
-
公开(公告)号:CN117349235A
公开(公告)日:2024-01-05
申请号:CN202311418655.6
申请日:2023-10-30
申请人: 浙江大学
摘要: 本发明公开了一种基于LSM‑Tree的KV存储系统、电子设备、介质,包括:易失性内存,用于缓存新写入的数据并查找新写入的数据;持久化内存,包括多布谷鸟过滤器用于索引全局数据;所述多布谷鸟过滤器包括若干个布谷鸟过滤器,每一布谷鸟过滤器中包含由一张哈希表,哈希表表内有若干个哈希桶,每个哈希桶内有4个哈希槽,每个哈希槽的大小为64个字节,其中高32字节用于存储键值对中键的指纹,低32字节用于存储相应键值对所在的文件编号;磁盘,所述磁盘使用单层文件结构以持久化键值对数据,并存储数据日志以及系统日志;其中,单层文件结构基于文件之间的重合度将重合重程度最高的若干个文件在下一轮合并操作中被合并。
-
公开(公告)号:CN116628136A
公开(公告)日:2023-08-22
申请号:CN202310660570.2
申请日:2023-06-05
申请人: 浙江大学
IPC分类号: G06F16/33 , G06F16/35 , G06F40/253 , G06F16/332 , G06N5/04 , G06N3/02
摘要: 本发明公开了基于声明式推理的协同查询处理方法、系统、电子设备,包括:步骤S1,将查询文本输入至语法分析器得到语法分析树,进而利用关系代数运算符替换语法分析树中的节点和结构,产生关系代数表达式,并利用代数定律进行等价转化,得到逻辑查询计划;步骤S2,将逻辑查询计划转换为中间查询计划;包括:基于类别约束和精度约束为逻辑查询计划中的DIF查找代价最小的NN模型;步骤S3,将中间查询计划转换成物理查询计划;包括:通过确定实现DIF的NN模型的运行方式为中间查询计划中的每个算子选择实现方式,以获取代价最低的物理查询计划。
-
公开(公告)号:CN113033603B
公开(公告)日:2022-11-15
申请号:CN202110162956.1
申请日:2021-02-05
申请人: 浙江大学
IPC分类号: G06V10/764 , G06V10/774 , G06V10/82 , G06N3/04 , G06N3/08
摘要: 本发明公开了一种基于元学习的弱监督图像多标签分类方法,属于图像处理技术领域。该方法为解决因标签缺失无法有效建模标签依赖关系问题,提出一个基于标签信息增强的图像多标签分类模型,采用编码‑解码架构的神经网络,以序列标注的形式,依次判断标签序列中的标签是否相关,获得图像的相关标签。应对弱监督环境存在的监督信息不足导致模型过拟合现象,本发明提出了基于元学习的教师‑学生网络架构训练方法,进一步提高了图像标注的准确率。
-
公开(公告)号:CN111475507B
公开(公告)日:2022-06-21
申请号:CN202010244527.4
申请日:2020-03-31
申请人: 浙江大学
摘要: 本发明公开了一种工作负载自适应单层LSMT的键值数据索引方法。该方法对传统的日志结构合并树(Log‑Structured‑Merge Tree,LSMT)进行了优化,去除了多层设计和固定内存表容量设计,引入了单层LSMT和动态容量内存表的设计。该方法将写入首先将写操作以顺序的方式写入存储设备上的日志文件中,再修改内存表。当内存表的大小达到了容量限制,转换成一个只读内存表,并在后台线程中将只读内存表表合入存储设备上的单层LSMT结构中。在此基础上,本方法能够根据工作负载中的键值读写分布自动优化存储结构。该索引方法能够同时降低对存储设备的读写放大,提升系统吞吐和存储设备寿命。同时针对工作负载做出自适应的优化,进一步提升系统性能。
-
-
-
-
-
-
-
-
-