一种大数据集下相似性数据的快速识别算法

    公开(公告)号:CN104021179B

    公开(公告)日:2017-05-31

    申请号:CN201410247704.9

    申请日:2014-06-05

    Applicant: 暨南大学

    Inventor: 邓玉辉 周永涛

    Abstract: 一种大数据下相似性数据快速识别算法,包括下述步骤:数据文件长度的修正;计算抽样数据块之间的距离;计算抽样数据块的位置;抽取数据块;在数据文件首尾各抽取一个数据块;计算抽取数据块的特征值;通过集合运算判断数据的相似性。一方面,本发明的时空开销不随着数据文件大小的增加而增长;其次,本发明通过位置影响因子修正数据文件的长度,避免抽样数据块位置偏移而导致相似性数据识别失败;另外一方面,本发明通过信息检索的方法有效的保证了本发明在相似性数据识别方面的有效性和准确性。

    一种分布式起源数据收集与存储系统

    公开(公告)号:CN106682061A

    公开(公告)日:2017-05-17

    申请号:CN201610901863.5

    申请日:2016-10-17

    Applicant: 暨南大学

    Inventor: 邓玉辉 吴国锦

    Abstract: 本发明公开了一种分布式起源数据收集与存储系统,包括:内核态的起源信息收集模块、用户态的起源记录生成模块以及存储层模块,其中,起源信息收集模块是一个轻量级堆栈式文件系统,能挂载于任意的POSIX标准文件系统之上,起源记录生成模块分析起源信息收集模块收集的起源日志,生成起源关系,存储层模块以分布式文件系统为存储后端,为其他两个模块提供存储服务并将起源记录持久化到键值型起源数据库中。此发明具有高灵活性、高可移植性特点,适用于任意支持POSIX标准的分布式文件系统,且具有在用户态收集起源信息所不可比拟的低性能开销。

    客户端起源信息关联感知的元数据预取方法及系统

    公开(公告)号:CN105279240A

    公开(公告)日:2016-01-27

    申请号:CN201510632669.7

    申请日:2015-09-28

    Applicant: 暨南大学

    Inventor: 邓玉辉 吴国锦

    CPC classification number: G06F17/30194

    Abstract: 本发明公开了一种客户端起源信息关联感知的元数据预取方法及系统,所述方法包括:在客户端的内核空间实时收集起源信息日志记录,从内核空间传输到用户空间;在客户端选取一部分已收集的起源信息日志记录,作为元数据的关联性训练数据,计算元数据两两之间的关联分数,得到最初的强关联列表;当客户端发生文件访问请求,且文件的元数据不在客户端本地的元数据缓存中时,在客户端的强关联列表中,预取多个强关联的元数据,从元数据服务器下载相应的元数据,更新客户端本地的元数据缓存;根据新增的起源信息日志记录,定时更新元数据强关联列表。本发明提高了客户端的元数据缓存命中率,减少对元数据服务器的访问次数,从而提高元数据服务的性能。

    一种面向海量图片数据的重复数据删除方法

    公开(公告)号:CN104881470A

    公开(公告)日:2015-09-02

    申请号:CN201510283400.2

    申请日:2015-05-28

    Applicant: 暨南大学

    Inventor: 邓玉辉 谢恒翔

    CPC classification number: G06F17/30156 G06F17/30153

    Abstract: 本发明公开了一种面向海量图片数据的重复数据删除方法,涉及计算机存储领域。该方法包括:根据文件后缀名识别文件类型,将图片文件的位图矩阵数据读入内存;对位图矩阵按基于图片尺寸的分块算法进行分块;用传统的唯一块判定方法或相似性判定方法判定数据块是唯一块还是冗余块;若为冗余块,则将其删除,否则根据原图片文件类型选择对应的图片压缩算法对该数据块进行压缩,然后将其存入系统。本发明提供的技术方案适用于海量图片数据去重环境,能大大缩减其实际存储的数据量。

    一种基于数据行为的低能耗集群存储复制装置和方法

    公开(公告)号:CN103294167A

    公开(公告)日:2013-09-11

    申请号:CN201310190656.X

    申请日:2013-05-21

    Applicant: 暨南大学

    Inventor: 邓玉辉 张凌威

    Abstract: 本发明公开了一种基于数据行为的低能耗集群存储复制装置和方法,该装置包括元数据服务器和存储服务器,存储服务器分为热结点集合和冷结点集合。该方法是热结点集合处于常开状态,存储被客户频繁访问到的热点数据,为存储系统提供QoS的保证;冷结点集合存放数据量较大的、只会偶尔被客户访问的冷点数据,在无请求时自动转入休眠状态,一旦有请求到来就立即转回工作状态来处理请求。由于客户的数据访问行为往往服从80/20法则,即80%的请求会集中于20%的热点数据,而只有20%的请求才会访问80%的冷点数据。因此,本发明保证了存储集群系统性能的服务质量的前提下,能够大幅度地降低系统的能耗。

Patent Agency Ranking