-
公开(公告)号:CN118466842A
公开(公告)日:2024-08-09
申请号:CN202410647110.0
申请日:2024-05-23
Applicant: 中国科学院信息工程研究所
IPC: G06F3/06
Abstract: 本发明公开了基于多层布隆过滤器的存储系统及存储方法,属于数据存储技术领域。本发明在RocksDB的基础上增加多层布隆过滤器仓库、布隆过滤器缓冲区,设计根据文件之间的访问频率差异,给访问频率高的文件分配位数更多的布隆过滤器,给访问频率更低的文件分配位数更少的布隆过滤器,从而在不增加原有内存空间占用的情况下,降低布隆过滤器的误判率,提高系统整体的读性能。
-
公开(公告)号:CN118445443A
公开(公告)日:2024-08-06
申请号:CN202410434613.X
申请日:2024-04-11
Applicant: 中国科学院信息工程研究所
IPC: G06F16/532 , G06F16/535 , G06F16/51 , G06F16/55 , G06V10/764 , G06V10/40 , G06V10/774 , G06V10/82 , G06N3/0895 , G06N3/096 , G06N3/0499
Abstract: 本发明公开了一种基于多粒度关系的协同学习半监督哈希方法,其步骤包括:1)构建一骨干网络,包括两个分支:学生网络和教师网络;2)将训练样本输入到学生网络,得到每一训练样本的特征表示和哈希码并将其存储到动态记忆库;3)计算分类损失函数、成对哈希损失函数、实例对比损失、类级对比损失和邻域一致性损失函数,用于优化学生网络;4)根据优化后的学生网络参数更新教师网络的参数;然后将训练样本输入到更新后的教师网络,得到每一训练样本的特征表示和哈希码更新所述动态记忆库;5)重复步骤3)~4)直至学生模型收敛或达到设定条件;6)将一待编码数据输入到最终优化后的学生网络,得到其哈希编码。本发明提高了哈希码的区分度。
-
公开(公告)号:CN118259830A
公开(公告)日:2024-06-28
申请号:CN202410292960.3
申请日:2024-03-14
Applicant: 中国科学院信息工程研究所
IPC: G06F3/06 , G06F16/901 , G06F9/50
Abstract: 本发明公开了一种基于非易失性内存的动态图存储方法及装置,涉及计算机领域,在DRAM中建立哈希表;在NVM中预分配顶点数组和每个顶点的后缀比特树的根节点,每个顶点的后缀比特树用来存储该顶点的邻接边,后缀比特树的根节点以数组形式预先统一分配内存,顶点数组中的每个顶点和根节点共享同一个索引;在每个邻接边插入之前,先检查该边的源顶点和目的顶点ID的映射关系是否已保存在哈希表中;如果没有,则采取顶点数组中下一个未使用的位置的索引作为顶点ID的哈希值,并将该顶点ID的映射关系保存到哈希表,同时将该顶点存到顶点数组对应的位置。本发明充分利用NVM可字节寻址、非易失性等特点,支持高性能的图更新及图分析能力。
-
公开(公告)号:CN113626723B
公开(公告)日:2024-06-14
申请号:CN202110777236.6
申请日:2021-07-09
Applicant: 中国科学院信息工程研究所
IPC: G06F16/9536 , G06Q50/00
Abstract: 本发明涉及一种基于表示学习的属性图社区搜索方法和系统。该方法以查询节点为随机游走的起点,使用节点的属性信息和结构信息引导随机游走的跳转,获取节点序列和属性关键词序列;分别对节点序列和属性关键词序列进行节点的表示学习,获得节点的拓扑表示和属性表示,将其结合作为节点表示信息;根据节点之间的相似度对原始图数据进行重构,得到重构图;基于重构图和节点表示信息建立社区模型;以建立的社区模型为指导寻找满足要求的目标社区。本发明降低了计算的规模,表示学习过程更加契合社区搜索关注局部特性的特点,并融入了节点在社区层面的信息,提高了节点特征挖掘的准确度,建立的社区模型兼顾了发现社区的可解释性、质量和效率。
-
公开(公告)号:CN117749641A
公开(公告)日:2024-03-22
申请号:CN202311508882.8
申请日:2023-11-13
Applicant: 中国科学院信息工程研究所
IPC: H04L41/142 , H04L41/147
Abstract: 本发明涉及一种基于子图的符号链路预测方法及系统。该方法包括:对图数据进行预处理操作得到符号图的邻接矩阵;构建基于重要性的子图提取模块,对全局邻居节点进行选取,针对网络中的每一个目标节点对提取子图;构建符号感知的节点标记模块,以目标节点为中心,采用相对距离编码对子图的图结构进行编码,得到表示结构的特征向量,实现邻居信息的知识嵌入;构建自平衡的符号分类模块,将编码的子图输入图神经网络,利用图卷积和图池化操作对子图信息进行特征提取,得到子图表示,通过焦点损失和自剪枝对比损失实现链路的平衡分类;对各模块进行训练以进行符号链路预测。本发明能够克服现有符号链路预测方法的不足,取得更好的符号链路预测效果。
-
公开(公告)号:CN117669698A
公开(公告)日:2024-03-08
申请号:CN202311555818.5
申请日:2023-11-21
Applicant: 中国科学院信息工程研究所
IPC: G06N3/098 , G06N3/096 , G06N3/0464 , G06N3/045 , G06V10/82 , G06V10/94 , G06V10/776 , G06V10/74
Abstract: 本发明公开了种主动定向式数据蒸馏的联邦学习方法、装置及系统,该方法包括:从服务器获取全局模型w(t)的当前参数;判断当前通信轮数t是否大于一设定的早期通信轮数T′;在t≤T′的情况下,基于本地数据集优化全局模型w(t),并利用全局模型w(t)对本地数据集进行蒸馏后,将得到的局部模型和蒸馏数据返回至服务器,以使该服务器基于所有客户端返回的所述局部模型和所述蒸馏数据生成全局模型w(t+1);在t>T′的情况下,基于本地数据集优化全局模型后,将得到的局部模型返回至服务器,以使该服务器基于所有客户端返回的所述局部模型 生成全局模型w(t+1)。本发明可以有效改善全局模型因数据异质性性能下降问题。
-
公开(公告)号:CN116861076A
公开(公告)日:2023-10-10
申请号:CN202310752863.3
申请日:2023-06-25
Applicant: 中国科学院信息工程研究所
IPC: G06F16/9535 , G06F18/214 , G06F18/22 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种基于用户流行度偏好的序列推荐方法及装置,该方法包括:根据训练集中的用户‑物品交互数据,按照时间顺序构建用户行为序列;计算序列推荐模型的基础损失;计算序列推荐模型的去噪损失;计算序列推荐模型的对比学习损失;根据基础损失、去噪损失和对比学习损失进行序列推荐模型的训练和优化,进而得到待检测用户‑物品交互序列的推荐结果。本发明可以全面捕捉多样化和动态的用户流行度偏好。
-
公开(公告)号:CN112883216B
公开(公告)日:2022-09-16
申请号:CN202110226266.8
申请日:2021-03-01
Applicant: 中国科学院信息工程研究所
IPC: G06F16/55 , G06F16/583 , G06K9/62 , G06V10/774 , G06N3/08
Abstract: 本发明公开了一种基于扰动一致性自集成的半监督图像检索方法及装置,包括将图像输入训练后的半监督图像特征提取模型,得到该图像的特征,其中所述半监督图像特征提取模型包括:一卷积神经网络、一哈希层和一扰动一致性自集成模块;将图像的特征转换为图像离散的二值哈希码;依据二值哈希码进行检索,得到图像检索结果。本发明通过集成同一个样本在不同数据增强条件下的特征,能够发现每个类别的判别特征;通过设计的扰动一致性损失函数最大化无标记数据的哈希层输出与对应的集成特征的相似性,充分的利用了无标记数据提升网络的泛化能力;能够取得更好的检索效果。
-
公开(公告)号:CN106909624B
公开(公告)日:2020-05-22
申请号:CN201710043943.6
申请日:2017-01-19
Applicant: 中国科学院信息工程研究所
IPC: G06F16/172 , G06F16/17 , G06F16/2453 , G06F16/2455 , G06F16/2457 , G06F16/9535
Abstract: 本发明公开了一种海量数据实时排序优化方法。本方法为:1)设置一集群级节点、若干节点级节点和若干文件级节点;2)集群级节点将收到的检索排序请求发送给各节点级节点,各节点级节点将该检索排序请求发送给本节点的文件级节点;3)各文件级节点根据该检索排序请求,将与本节点相关的日志文件排序后输出有序数据给节点级节点;4)各节点级节点根据该检索排序请求将本节点上符合时间范围和分区条件的日志数据排序后输出给该集群级节点;5)该集群级节点将各节点级节点发送过来的有序数据流进行排序汇总。在任意的排序场景中,本方法都能有效降低内存使用量。
-
公开(公告)号:CN106909623B
公开(公告)日:2019-11-26
申请号:CN201710043645.7
申请日:2017-01-19
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种支持高效海量数据分析和检索的数据装置及数据存储方法。本装置包括若干文件夹,在每一文件夹中包含多个索引分段;每一索引分段包括一全文索引组件、一数据定位模块和一数据存储模块;全文索引组件用于存储索引分段中的记录的倒排索引信息;数据存储模块,包含多个横向分块,每个横向分块包含多个列分片,每个列分片包含多个用于存储数据记录的数据页;数据定位模块,提供针对数据存储模块的嵌套索引结构,每个横向分块索引存储了横向分块记录起始Id、横向分块位置、各列分片的位置以及列分片索引集合;每个列分片索引记录了列分片中数据页起始位置和数据页索引集合;每个数据页索引记录了数据页所在文件位置和页记录起始Id。
-
-
-
-
-
-
-
-
-