数据处理方法和流计算系统

    公开(公告)号:CN106294357B

    公开(公告)日:2019-07-09

    申请号:CN201510246697.5

    申请日:2015-05-14

    CPC分类号: G06F16/1748 G06F16/24568

    摘要: 本申请提出一种数据处理方法和流计算系统,该数据处理方法包括数据接收模块接收到要处理的数据后,将所述数据写入文件系统中,并在所述数据被写入文件系统后,发送所述数据给逻辑处理模块;逻辑处理模块根据对数据的接收情况获取有效数据,并且,定期对预设的检查点进行更新;以及,在发生失效转移时,确定最新的检查点,获取与所述最新的检查点对应的有效数据,并恢复所述有效数据。该方法能够满足对外服务化的诉求,以及在发生失效转移时避免数据源头重发。

    重复数据删除方法和装置

    公开(公告)号:CN103870514B

    公开(公告)日:2018-03-09

    申请号:CN201210552244.1

    申请日:2012-12-18

    发明人: 祁蕊

    IPC分类号: G06F17/30

    CPC分类号: G06F16/1748

    摘要: 本发明实施例提供一种重复数据删除方法和装置,包括:将待处理文件划分成至少两个数据块;计算所述待处理文件中各数据块的数据指纹;根据各数据块的数据指纹和热点哈希表中的数据指纹对所述待处理文件的数据块进行去重操作,其中,所述热点哈希表中的数据指纹为在至少一个文件中重复出现次数达到设定门限值的数据指纹。本发明实施例的重复数据删除方法和装置,通过使用热点哈希表进行去重操作,降低了文件数据块的重复率,提高了文件存储的空间利用率。

    一种针对相同及相似图片去重的图像数据清洗方法

    公开(公告)号:CN107480203A

    公开(公告)日:2017-12-15

    申请号:CN201710599473.1

    申请日:2017-07-23

    发明人: 丁琴 荆丽桦

    IPC分类号: G06F17/30 G06K9/62

    摘要: 本发明公开了一种针对相同及相似图片去重的图像数据清洗方法,包含图像预处理模块和相似图像去重模块;图像预处理模块包括图像数据集合、生成路径文件和生成特征文件;相似图像去重模块包括图象特征相似度计算、相似判别和去重。本发明在对图片生成特征值的时候考虑了图片的局部性因素,并对图片的局部特征值与全局平均值作比较得出最终的二值化图片特征,这样得出的图片特征值能够很好的保留图片的局部特征信息,同时也很好的保留了每个局部块之间的关系,即使图片在局部发生改变、或者整体对比度亮度发生一定程度的改变,其与原图片之间具有的高度相似性都会被发现,因此该方法在很大程度上提高了对图像数据中相似图片去重的效率和精度。

    一种文件上传方法及装置

    公开(公告)号:CN107403016A

    公开(公告)日:2017-11-28

    申请号:CN201710670768.3

    申请日:2017-08-08

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种文件上传方法及装置,根据待上传的第一文件的内容,为第一文件生成用于标识第一文件内容的文件码;将生成的文件码与文件码列表中已上传文件的文件码进行比较;若比较结果为在文件码列表中存在与生成的文件码相同的文件码,则根据第二文件的状态判断是否上传第一文件,其中第二文件为文件码列表中的与生成的文件码相同的文件码对应的文件。从本发明实施例可见,避免了上传大量重复的文件,从而提高了文件所在存储空间的利用率。

    一种云存储系统中数据去重方法及系统

    公开(公告)号:CN107205024A

    公开(公告)日:2017-09-26

    申请号:CN201710356600.5

    申请日:2017-05-19

    发明人: 殷武烁 张建刚

    IPC分类号: H04L29/08 G06F17/30

    摘要: 本发明提供了一种云存储系统中数据去重方法包括:获取目标文件,目标文件为待上传文件;生成目标文件的待上传文件数字指纹库;将待上传文件数字指纹库与云端已存储的文件数字指纹库进行比对,生成去重后的待上传数字指纹库;基于去重后的待上传数字指纹库上传去重后的文件至云端文件库。本发明能够有效的在线对云存储系统中的数据进行去重,大大提高客户端向云端上传或备份数据的速度。本发明还公开了一种云存储系统中数据去重系统。

    一种重复图片的检测方法和装置

    公开(公告)号:CN107169057A

    公开(公告)日:2017-09-15

    申请号:CN201710288893.8

    申请日:2017-04-27

    发明人: 刘华星

    IPC分类号: G06F17/30

    摘要: 本发明实施例公开了一种重复图片的检测方法和装置;本发明实施例采用获取应用进程的内存使用文件,然后,根据类的内使用信息得到多个图片类的属性的偏移,该属性包括图片数据缓存区和图片尺寸,根据多个实例的内存使用信息和多个图片类的属性的偏移获取多个图片对象的属性值,该属性值包括图片数据缓存区地址值以及图片尺寸值,根据多个图片对象的图片数据缓存区地址值与多个数组的内存使用信息,获取多个图片对象的图片内容数据;从该多个图片对象中确定图片尺寸值相同、且图片内容数据相同的相同图片对象,并确定相同图片对象对应的图片为重复图片;该方案可以自动检测内存中的重复图片,无需人工处理,可以提高重复图片的检测效率。

    一种多媒体文件云存储平台及使用该云存储平台去冗的方法

    公开(公告)号:CN106446263A

    公开(公告)日:2017-02-22

    申请号:CN201610906717.1

    申请日:2016-10-18

    IPC分类号: G06F17/30

    CPC分类号: G06F16/182 G06F16/1748

    摘要: 本发明一种多媒体文件云存储平台及使用该云存储平台去冗的方法,属于信息处理领域。所述平台包括:存储接口管理子系统,集群管理子系统和存储管理子系统;存储接口管理子系统生成操作指令与集群管理子系统或存储管理子系统进行通信;使用所述平台去冗的方法为:首先计算上传文件的指纹信息,生成验证指令发给集群管理子系统判断,如果指纹信息存在,查找对应的文件元数据指令并返回结果;否则,验证文件指纹信息并发送结果;继续判断云存储平台中是否存在相同文件,如果是发送添加冗余记录指令,并上传结果;否则,保存文件,并添加指令后将结果上传;本发明降低了存储服务器的存储负载,加快了用户与云存储平台之间传输文件的速度。

    重复数据检索方法及设备

    公开(公告)号:CN103189867B

    公开(公告)日:2016-05-25

    申请号:CN201280001989.7

    申请日:2012-10-30

    发明人: 覃强

    IPC分类号: G06F17/30 G06F3/06

    CPC分类号: G06F16/1748 G06F16/152

    摘要: 本发明实施例提供一种重复数据检索方法及设备。方法包括:对接收到的数据进行分块处理获取至少两个数据分块;对至少两个数据分块进行分组得到至少一个数据分组;针对每个数据分组,对该数据分组内的数据分块进行相似性哈希运算获取该数据分组的哈希值,获取哈希值存储表中与该数据分组的哈希值相似度大于或等于第一相似度阈值的第一哈希值,如果该数据分组的哈希值与第一哈希值的相似度大于或等于预设第二相似度阈值,对该数据分组内的数据分块进行重复块检索。本发明技术方案提高了重复块查询效率,提高重复数据删除技术的整体性能。