一种数据查询方法及装置

    公开(公告)号:CN104657387B

    公开(公告)日:2019-02-05

    申请号:CN201310596903.6

    申请日:2013-11-22

    IPC分类号: G06F16/24

    摘要: 本发明实施例公开了一种数据查询方法及装置。该数据查询方法预先存储多个历史查询请求及其时间戳,以及与所述历史查询请求一一对应的历史查询结果,所述查询方法包括:接收数据查询请求;将所述数据查询请求与所述多个历史查询请求进行匹配;根据匹配结果将所述数据查询请求划分为至少一个子查询请求;根据所述子查询请求进行数据查询;合并所述至少一个子查询请求的查询结果,并将合并后的查询结果作为所述数据查询请求的结果。该方法无需建立和维护物化视图,而且对历史结果数据以及查询过的不需要重复查询,这样可以大大减少扫描和计算的数据量,提高查询效率,改善查询性能,降低查询费用。

    一种数据查询方法及装置

    公开(公告)号:CN104657387A

    公开(公告)日:2015-05-27

    申请号:CN201310596903.6

    申请日:2013-11-22

    IPC分类号: G06F17/30

    CPC分类号: G06F17/30693

    摘要: 本发明实施例公开了一种数据查询方法及装置。该数据查询方法预先存储多个历史查询请求及其时间戳,以及与所述历史查询请求一一对应的历史查询结果,所述查询方法包括:接收数据查询请求;将所述数据查询请求与所述多个历史查询请求进行匹配;根据匹配结果将所述数据查询请求划分为至少一个子查询请求;根据所述子查询请求进行数据查询;合并所述至少一个子查询请求的查询结果,并将合并后的查询结果作为所述数据查询请求的结果。该方法无需建立和维护物化视图,而且对历史结果数据以及查询过的不需要重复查询,这样可以大大减少扫描和计算的数据量,提高查询效率,改善查询性能,降低查询费用。

    针对最短路的图数据冗余边识别方法、压缩方法及装置

    公开(公告)号:CN109815237A

    公开(公告)日:2019-05-28

    申请号:CN201910048136.2

    申请日:2019-01-18

    申请人: 清华大学

    摘要: 本发明实施例提供针对最短路的图数据冗余边识别方法、压缩方法及装置,其中,针对最短路的图数据冗余边识别方法包括:输入待识别的图,待识别的图中包含结点、边和边的权值;对于所述待识别的图中任一有出度的结点,利用最短路算法,获取从当前结点到所述待识别的图中除了当前结点之外的其他所有结点的最短路径;对于所述待识别的图中的任意边,判断边的权值是否大于边的始点到终点的最短路径的长度,若边的权值大于边的始点到终点的最短路径的长度,则标记为冗余边。本实施例能够在保证所有点对间的最短路径被完整保留的前提下,识别出图数据中的冗余边,以供后续能够在删除冗余边后减小存储图数据的空间消耗,达到无损压缩目的。

    一种基于语义的海量数据处理方法

    公开(公告)号:CN103279505B

    公开(公告)日:2016-12-07

    申请号:CN201310173198.9

    申请日:2013-05-10

    IPC分类号: G06F17/30

    摘要: 本发明公开一种基于语义的海量数据处理方法,其包括以下步骤:A、将所述云应用中的所有的海量数据进行语义处理,形成智能分布式的语义索引机制;B、对云应用中所有的元数据和数据按照所述语义索引机制进行语义存储到相应的云存储系统中;C、对存储于云存储系统中的云应用执行海量数据的MapReduce计算。本发明通过基于语义的海量数据存储方式,将会使得那些具有语义关联比较高的数据存储的比较紧密,当各种云应用需要执行对海量数据的MapReduce计算时,会在同一台机器上对同一个作业执行较多的Map或者Reduce任务,从而减少数据迁移的时间消耗,将会较好地提高海量数据的处理效率。

    一种区块链存储数据的查询方法及装置

    公开(公告)号:CN113157735B

    公开(公告)日:2024-10-08

    申请号:CN202110426757.7

    申请日:2021-04-20

    申请人: 清华大学

    摘要: 本发明提供一种区块链存储数据的查询方法及装置,包括:根据用户提交的查询信息,获取所述查询信息的哈希值;所述查询信息包括区块号、表名称、关键字或语义以及时态信息;根据所述查询信息的哈希值,在外部数据库里的多层级索引树中逐层检索,获取所述查询信息的哈希值对应的目标存储数据;所述多层级索引树包括所述用户预先存储的所述查询信息的哈希值。本发明的方法,通过结合区块链存储系统的特性,在外部数据库预先构建多层级索引树,使得用户进行数据查询时,系统可以通过查询信息的哈希值,快速检索到查询信息的哈希值对应的目标存储数据,提高了查询效率。

    一种数据压缩方法、装置、电子设备及存储介质

    公开(公告)号:CN113014266A

    公开(公告)日:2021-06-22

    申请号:CN202110180075.2

    申请日:2021-02-07

    申请人: 清华大学

    IPC分类号: H03M7/30

    摘要: 本发明提供一种数据压缩方法、装置、电子设备及存储介质,该方法包括:通过断点检测算法对原始数据分段,根据拟合算法对各段数据进行拟合,可以有效地实现对数据的高效压缩,通过解压算法,得到还原后的数据,解决目前海量数据采集场景数据下规模过于庞大,存储和传输开销过大的问题,给大数据时代数字化转型的各类数据平台的进一步发展起到推动作用。通过断点检测算法对原始数据分段,根据拟合算法对各段数据进行拟合,可以有效地实现对数据的高效压缩,通过解压算法,得到还原后的数据,从而共同实现解决目前海量数据采集场景数据下规模过于庞大,存储和传输开销过大的问题,给大数据时代数字化转型的各类数据平台的进一步发展起到推动作用。

    针对最短路的图数据冗余边识别方法、压缩方法及装置

    公开(公告)号:CN109815237B

    公开(公告)日:2021-01-05

    申请号:CN201910048136.2

    申请日:2019-01-18

    申请人: 清华大学

    摘要: 本发明实施例提供针对最短路的图数据冗余边识别方法、压缩方法及装置,其中,针对最短路的图数据冗余边识别方法包括:输入待识别的图,待识别的图中包含结点、边和边的权值;对于所述待识别的图中任一有出度的结点,利用最短路算法,获取从当前结点到所述待识别的图中除了当前结点之外的其他所有结点的最短路径;对于所述待识别的图中的任意边,判断边的权值是否大于边的始点到终点的最短路径的长度,若边的权值大于边的始点到终点的最短路径的长度,则标记为冗余边。本实施例能够在保证所有点对间的最短路径被完整保留的前提下,识别出图数据中的冗余边,以供后续能够在删除冗余边后减小存储图数据的空间消耗,达到无损压缩目的。

    一种基于数据分割的数据安全保护方法及装置

    公开(公告)号:CN105893871B

    公开(公告)日:2019-04-05

    申请号:CN201610188545.9

    申请日:2016-03-29

    申请人: 清华大学

    IPC分类号: G06F21/62

    摘要: 本发明公开了一种基于数据分割的数据安全保护方法及装置,方法包括:根据预设的隐私数据提取规则,在原始数据中提取出隐私数据并分割为隐私数据和非隐私数据;将填充数据添加至隐私数据中,得到加密数据;根据隐私数据的序号、填充数据和加密数据,生成映射表;同时根据隐私数据的序号、映射表的名词和隐私数据对应的原始文档名称,生成索引表;根据映射表和索引表,生成隐私数据的信息安全卡,并根据预设的隐私数据存储策略,将隐私数据的信息安全卡存入数据库。本发明通过对数据进行分割,对隐私数据生成映射表和索引表,并建立隐私数据的信息安全卡,通过不同的策略进行存储,提高了存储和读取的效率,极大地简化数据分割与加密的难度。

    一种分布式地理文件系统

    公开(公告)号:CN102855239B

    公开(公告)日:2016-04-20

    申请号:CN201110177570.4

    申请日:2011-06-28

    申请人: 清华大学

    IPC分类号: G06F17/30

    摘要: 本发明提供了一种分布式地理文件系统,包括:包含管理服务器节点、数据服务器节点、数字对象服务器节点和客户端节点的分布式文件系统架构,大文件访问策略在文件创建时采用staging缓存策略,在副本生成时采用流水线方式;小文件访问策略,其在数据服务器节点增加了块内索引,通过对小文件的二次索引,减少管理服务器节点的元数据存储压力;地理空间数字对象模型,所述地理空间数字对象模型包括地理数字对象标识、数字对象元数据、空间索引存储结构及算法、地理信息版本信息和文件描述;分布式文件系统交互设计其用管理服务器节点管理所有的文件系统元数据,实现服务器之间,服务器与客户端的通信管理。

    一种大数据隐私处理方法及装置

    公开(公告)号:CN105447409A

    公开(公告)日:2016-03-30

    申请号:CN201510920819.4

    申请日:2015-12-11

    申请人: 清华大学

    IPC分类号: G06F21/62 G06F21/64

    CPC分类号: G06F21/6245 G06F21/64

    摘要: 本发明公开了一种大数据隐私处理方法及装置,所述方法包括:根据数据分割算法对原始文件中的大数据进行处理,得到隐私数据;获取所述隐私数据在原始文件中的位置信息,根据所述隐私数据和所述位置信息建立隐私数据和原始文件的映射表,并根据所述原始文件和所述映射表建立索引表,同时将所述映射表和所述索引表存入关系数据库。本发明通过数据分割算法将大数据中的隐私数据分割出来,通过单独的关系数据库对隐私数据进行单独存储,可以有效解决目前云环境下的医疗大数据将隐私数据和非隐私数据共同存储和处理,容易造成隐私数据泄露的问题,给医疗数据安全的进一步发展起到推动作用。