日志存储方法、装置、节点设备及存储介质

    公开(公告)号:CN112035410B

    公开(公告)日:2023-08-18

    申请号:CN202010833472.0

    申请日:2020-08-18

    摘要: 本申请公开了一种日志存储方法、装置、节点设备及存储介质,属于数据库技术领域。该方法包括:响应于目标事务的提交事件,确定第一存储介质的剩余容量,第一存储介质为用于存储日志的非易失性存储介质;响应于该剩余容量小于该目标事务的未缓存日志的数据量,创建日志检查点,将第二存储介质中基于修改操作产生的业务数据存储至第三存储介质;将该目标事务的未缓存日志写入到该第一存储介质。本申请通过直接在第一存储介质中持久化地存储日志,无需执行繁琐的双层日志缓存流程,大大节约了日志存储占用的空间,提升了数据库的系统性能,避免了限制数据库系统的吞吐量上限,有利于数据扩容。

    日志存储方法、装置、节点设备及存储介质

    公开(公告)号:CN112035410A

    公开(公告)日:2020-12-04

    申请号:CN202010833472.0

    申请日:2020-08-18

    摘要: 本申请公开了一种日志存储方法、装置、节点设备及存储介质,属于数据库技术领域。该方法包括:响应于目标事务的提交事件,确定第一存储介质的剩余容量,第一存储介质为用于存储日志的非易失性存储介质;响应于该剩余容量小于该目标事务的未缓存日志的数据量,创建日志检查点,将第二存储介质中基于修改操作产生的业务数据存储至第三存储介质;将该目标事务的未缓存日志写入到该第一存储介质。本申请通过直接在第一存储介质中持久化地存储日志,无需执行繁琐的双层日志缓存流程,大大节约了日志存储占用的空间,提升了数据库的系统性能,避免了限制数据库系统的吞吐量上限,有利于数据扩容。

    时序数据的编码方法及装置

    公开(公告)号:CN110545106B

    公开(公告)日:2020-07-17

    申请号:CN201910721876.8

    申请日:2019-08-06

    申请人: 清华大学

    IPC分类号: H03M7/30 G06F3/06

    摘要: 本发明实施例提供一种时序数据的编码方法及装置,其中方法包括:获取时序数据以及时序数据的原始二阶差分序列,获取原始二阶差分序列的紧凑编码占用的存储空间Cold;将原始二阶差分序列中不小于预设阈值的二阶差分拆分成若干个小于预设阈值的二阶差分,并根据新的二阶差分序列生成标识序列,标识序列用于标记新的二阶差分序列中的各二阶差分是否为原始二阶差分;获取新的二阶差分序列的紧凑编码和标识序列占用的存储空间Cs,若存储空间Cs小于存储空间Cold,则根据新的二阶差分序列的紧凑编码以及标识序列生成编码策略。本发明实施例能够高效地确定编码策略,有效地解决现有技术容易受到突变点、异常点以及缺失值影响的缺点。

    时序数据的编码方法及装置

    公开(公告)号:CN110545106A

    公开(公告)日:2019-12-06

    申请号:CN201910721876.8

    申请日:2019-08-06

    申请人: 清华大学

    IPC分类号: H03M7/30 G06F3/06

    摘要: 本发明实施例提供一种时序数据的编码方法及装置,其中方法包括:获取时序数据以及时序数据的原始二阶差分序列,获取原始二阶差分序列的紧凑编码占用的存储空间Cold;将原始二阶差分序列中不小于预设阈值的二阶差分拆分成若干个小于预设阈值的二阶差分,并根据新的二阶差分序列生成标识序列,标识序列用于标记新的二阶差分序列中的各二阶差分是否为原始二阶差分;获取新的二阶差分序列的紧凑编码和标识序列占用的存储空间Cs,若存储空间Cs小于存储空间Cold,则根据新的二阶差分序列的紧凑编码以及标识序列生成编码策略。本发明实施例能够高效地确定编码策略,有效地解决现有技术容易受到突变点、异常点以及缺失值影响的缺点。

    一种基于滑动窗口的数据可视化方法和系统

    公开(公告)号:CN108073700B

    公开(公告)日:2019-06-18

    申请号:CN201711320723.X

    申请日:2017-12-12

    申请人: 清华大学

    IPC分类号: G06F16/904

    摘要: 本发明提供一种基于滑动窗口的数据可视化方法和系统,可视化方法包括:基于滑动窗口的长度和显示区域宽度上的像素数目,确定滑动窗口中的每一像素列的流数据点数;对于任一像素列,获取任一像素列的第一个流数据点、最后一个流数据点、流数据最大值点和流数据最小值点组成一像素列组,作为任一像素列对应的像素列组;多个像素列组组成一个维护列组,将维护列组存入循环数组,多个像素列组的维护列组数目与显示区域宽度上的像素数目相等;对维护列组中的所有流数据点进行重新渲染,以使得数据可视化。本发明大大缩减了数据量,对于内存占用、渲染效率都有很大的提升。本发明可以在流数据高速到来的条件下,对滑动窗口内的流数据进行高效的渲染。

    基于向量时钟的分布式键值数据库的副本修复方法与装置

    公开(公告)号:CN109739684A

    公开(公告)日:2019-05-10

    申请号:CN201811384997.X

    申请日:2018-11-20

    申请人: 清华大学

    IPC分类号: G06F11/14

    摘要: 本发明实施例提供一种基于向量时钟的分布式键值数据库的副本修复方法与装置,其中所述方法包括:分别为每个节点对应分配一个向量时钟,并设置一个写操作版本变量,向量时钟的各分量表示相应节点作为写操作的协调者节点的写操作,写操作版本变量记录写操作版本号;在每次进行写操作时,更新执行写操作的节点对应的写操作版本号,并基于向量时钟和写操作版本号,记录不同节点间的丢失写操作序列;基于更新的写操作版本号和丢失写操作序列,读取其余副本所在节点写操作的最新数据,以供待修复副本所在节点根据最新数据,修复待修复副本。本发明实施例能够有效降低修复过程的繁琐程度,提高修复效率。

    一种基于多层次列式存储结构的时序数据存储方法

    公开(公告)号:CN108182244B

    公开(公告)日:2019-04-05

    申请号:CN201711461821.5

    申请日:2017-12-28

    申请人: 清华大学

    IPC分类号: G06F16/13

    摘要: 本发明提供一种基于多层次列式存储结构的时序数据存储方法,将所有待存储时序数据存储于文件中,所述文件包括第一部分和第二部分;将每一待存储时序数据的获取时间和每一待存储时序数据的数据值存储于所述第一部分;将所述第一部分划分为若干个行组;将每一行组划分为若干个列组;将所有行组的个数、每一行组在文件的偏移量、每一行组中所有列组的个数、每一时序数据的属性值和每一列组在所述文件的偏移量作为所述第二部分。本方法对时序数据按列组织,将同一行组内的同一列的数据在文件中连续存储,从而使得被查询的数据在文件中处于相近的位置,可以减少查询时对时序数据的读取量,从而提高查询的速度,提高了磁盘的IO性能。

    多分段多阈值约束的时间序列模式查找方法和系统

    公开(公告)号:CN107992840B

    公开(公告)日:2019-02-05

    申请号:CN201711322649.5

    申请日:2017-12-12

    申请人: 清华大学

    IPC分类号: G06K9/00

    摘要: 本发明提供一种多分段多阈值约束的时间序列模式查找方法和系统,查找方法包括:S1、将时间序列模式和滑动窗口分别划分成数目相等的窗口块,并且提取时间序列模式的指定个窗口块的特征,其中,时间序列模式由多个互不重叠的包括对应的预设阈值的子模式构成;S2、获取滑动窗口在流式时序数据上滑动至任一窗口时,滑动窗口的指定个窗口块的特征;S3、若判断获知任一窗口不能跳过,则从任一窗口开始,判断与滑动窗口的跳跃步长数相等的窗口块的流式时序数据和时间序列模式是否匹配,若匹配,则获取与滑动窗口的跳跃步长数相等的窗口块的流式时序数据作为查找结果。本发明能够对特征进行高效提取。并且,本发明可以高效的完成多阈值模式的精确比较。

    一种基于时域和频域的时序数据存储方法和系统

    公开(公告)号:CN107908594B

    公开(公告)日:2018-12-28

    申请号:CN201711320919.9

    申请日:2017-12-12

    申请人: 清华大学

    IPC分类号: G06F17/14 G06F17/30

    摘要: 本发明提供一种基于时域和频域的时序数据存储方法和系统,所述方法包括将待存储的时序数据分为若干段时间序列数据,依次提取每段时间序列数据中值列的频域信息;计算所述频域信息的误差率,并与设定的可容忍误差率相比;若所述频域信息的误差率小于可容忍误差率,则该段时间序列数据的时间列存储时域信息,值列存储所述频域信息;若所述频域信息的误差率大于可容忍误差率,则该段时间序列数据的时间列存储时域信息,值列存储时域信息。利用时间序列的频域特点,对时间序列值列按照需求进行频域和时域混合存储,能够适应不同的时间序列场景和用户需求,极大降低了存储空间,可通过用户设置参数实现磁盘占用和误差率间的平衡。

    一种列式存储下多时间序列的连接查询方法及系统

    公开(公告)号:CN108062378B

    公开(公告)日:2018-12-11

    申请号:CN201711322631.5

    申请日:2017-12-12

    申请人: 清华大学

    IPC分类号: G06F17/30

    摘要: 本发明提供一种列式存储下多时间序列的连接查询方法,包括:将列式存储的多个时间序列划分为多个待查询序列和多个过滤序列,所述时间序列包括时间戳序列和数据值序列;从每一过滤序列的时间戳序列中筛选出每一过滤序列满足预设过滤条件的时间戳;基于每一过滤序列满足所述预设过滤条件的时间戳,对所述查询序列进行遍历,获取连接查询结果,所述连接查询结果为查询序列的时间戳以及查询序列的时间戳对应的数据值。本发明提供的一种列式存储下多时间序列的连接查询方法及系统,通过对所有列的过滤条件计算出满足该所有条件的时间戳,再通过该时间戳来对查询列进行查询,能够根据时序数据的特点进行有效的过滤及查询。