基于时序数据库的检索匹配方法和装置

    公开(公告)号:CN116089491B

    公开(公告)日:2024-01-30

    申请号:CN202211616863.2

    申请日:2022-12-15

    申请人: 清华大学

    IPC分类号: G06F16/2458 G06F16/2455

    摘要: 本发明提供一种基于时序数据库的检索匹配方法和装置,包括:获取时间序列元信息和时序数据变化趋势信息;基于所述时间序列元信息从预先创建的时序数据库中筛选出候选序列集;基于所述时序数据变化趋势信息对所述候选序列集进行匹配计算,以便从所述候选序列集的序列中找到每条序列的最匹配子序列。本发明根据时间序列元信息和时序数据变化趋势信息,从时序数据库筛选出候选序列集,再进行匹配计算,查询出数据库中最匹配用户所描述形状的子序列,支持了用户利用混合信息查出所需序列段,实现了时延更短的查询,从而使序列匹配的性能大幅提升。

    基于时序数据库的检索匹配方法和装置

    公开(公告)号:CN116089491A

    公开(公告)日:2023-05-09

    申请号:CN202211616863.2

    申请日:2022-12-15

    申请人: 清华大学

    IPC分类号: G06F16/2458 G06F16/2455

    摘要: 本发明提供一种基于时序数据库的检索匹配方法和装置,包括:获取时间序列元信息和时序数据变化趋势信息;基于所述时间序列元信息从预先创建的时序数据库中筛选出候选序列集;基于所述时序数据变化趋势信息对所述候选序列集进行匹配计算,以便从所述候选序列集的序列中找到每条序列的最匹配子序列。本发明根据时间序列元信息和时序数据变化趋势信息,从时序数据库筛选出候选序列集,再进行匹配计算,查询出数据库中最匹配用户所描述形状的子序列,支持了用户利用混合信息查出所需序列段,实现了时延更短的查询,从而使序列匹配的性能大幅提升。

    文件并发分块上传方法、装置、电子设备及存储介质

    公开(公告)号:CN113824760A

    公开(公告)日:2021-12-21

    申请号:CN202110886685.4

    申请日:2021-08-03

    IPC分类号: H04L29/08 H04L29/06

    摘要: 本发明提供一种文件并发分块上传方法、装置、电子设备及存储介质,所述方法包括:接收客户端发送的待上传文件的元信息;根据元信息中的文件标识获取待上传文件的待上传文件块信息;待上传文件块信息包括待上传文件块的起始偏移量以及未完全传输的文件块的已传输字节数;计算允许并发的上传线程数,并将待上传文件块信息及允许并发的上传线程数发送给客户端;接收客户端的上传线程根据待上传文件块信息发送的文件块数据,根据文件块数据更新历史上传记录;重复执行上述过程,直至待上传文件块全部上传。本发明实施例提供的文件并发分块上传方法、装置、电子设备及存储介质,通过对文件上传线程的实时合理分配,实现了文件的并发高效上传。

    一种在键值库中进行分布式数据分析的方法

    公开(公告)号:CN102750353A

    公开(公告)日:2012-10-24

    申请号:CN201210190397.6

    申请日:2012-06-08

    申请人: 清华大学

    IPC分类号: G06F17/30

    摘要: 本发明一种在键值库中进行分布式数据分析的方法,属于数据处理技术领域。将键值库中与哈希范围对应的数据作为一个数据块,每个数据块有多个副本,选取一个副本进行映射处理,得到多个中间数据块,存储在当前计算机上;聚集处理从映射处理的计算机上读取中间数据块,进行排序后进行聚集处理,得到一个输出文件并存储在非关系型数据库上的文件系统中;启动时,用户将数据分析程序打包成一个代码包,将该代码包和数据块描述信息存储在文件系统中,中心计算机从文件系统中读取数据块描述信息,根据该信息分配任务。本方法消除了映射聚集框架对分布式文件系统的依赖,可执行代码包都被存储在非关系型数据库上的文件系统中,降低了资源消耗和维护成本。

    容量和价值约束的数据压缩处理方法、装置及存储介质

    公开(公告)号:CN114547027B

    公开(公告)日:2023-01-31

    申请号:CN202210127570.1

    申请日:2022-02-11

    申请人: 清华大学

    发明人: 王建民 朱妤晴

    摘要: 本申请提供一种容量和价值约束的数据压缩处理方法、装置及存储介质,涉及数据处理技术,包括:获取多个待压缩数据块、与多个待压缩数据块对应的总原始数据块的第一块数、及压缩倍数值;根据第一块数、压缩倍数值、以及预设的衰减函数,确定压缩数据块对应的压缩队列;压缩队列中包括多个子压缩倍数值,每一子压缩倍数值与至少一个待压缩数据块对应,衰减函数是根据待压缩数据块的价值信息确定的;根据预设的压缩算法和子压缩倍数值,对与子压缩倍数值对应的至少一个待压缩数据块进行压缩处理,得到目标数据块;删除与目标数据块对应的待压缩数据块。本申请解决了有限存储空间内存储的时间序列数据的有效信息量较少的技术问题。

    一种基于云计算环境的非结构化数据的管理方法

    公开(公告)号:CN102012912B

    公开(公告)日:2012-08-22

    申请号:CN201010554537.4

    申请日:2010-11-19

    申请人: 清华大学

    IPC分类号: G06F17/30

    摘要: 本发明涉及一种基于云计算环境的非结构化数据的管理方法,属于计算机数据管理技术领域。本方法支持基于多个云计算存储系统的非结构化数据管理,采用了松散耦合非结构化源数据云存储系统、非文本类非结构化数据的特征数据云存储系统和文本类非结构化数据的特征数据云系统等子存储系统的体系结构,通过可多重部署的独立查询处理模块对底层子存储系统和多类型特征提取子模块的调度,关联非结构化数据的源数据和特征数据,以统一的模式实现面向源数据和特征数据的对多种非结构化数据的存储、获取、查询等管理功能。本方法在形成的系统体系结构和管理的内容等方面都具有高可扩展性的优点。

    文件并发分块上传方法、装置、电子设备及存储介质

    公开(公告)号:CN113824760B

    公开(公告)日:2024-01-30

    申请号:CN202110886685.4

    申请日:2021-08-03

    IPC分类号: H04L67/06 H04L67/01

    摘要: 本发明提供一种文件并发分块上传方法、装置、电子设备及存储介质,所述方法包括:接收客户端发送的待上传文件的元信息;根据元信息中的文件标识获取待上传文件的待上传文件块信息;待上传文件块信息包括待上传文件块的起始偏移量以及未完全传输的文件块的已传输字节数;计算允许并发的上传线程数,并将待上传文件块信息及允许并发的上传线程数发送给客户端;接收客户端的上传线程根据待上传文件块信息发送的文件块数据,根据文件块数据更新历史上传记录;重复执行上述过程,直至待上传文件块全部上传。本发明实施例提供的文件并发分块上传方法、装置、电子设备及存储介质,通过对文件上传线程的实时合理分配,实现了文件的并发高效上传。

    时序数据范围查询方法、装置及设备

    公开(公告)号:CN114547144B

    公开(公告)日:2023-03-24

    申请号:CN202210140941.X

    申请日:2022-02-16

    申请人: 清华大学

    IPC分类号: G06F16/2458

    摘要: 本发明提供一种时序数据范围查询方法、装置及设备,所述方法包括:接收用户输入的查询时间段,根据每一分段压缩数据的时间界限将所述查询时间段划分为多个子查询时间段;所述查询时间段表示查询时间范围;针对每一子查询时间段,获取包含所述子查询时间段的压缩数据段,以及每一压缩数据段对应的统计信息,根据所述统计信息确定所述子查询时间段对应的恢复点数,根据所述压缩数据段确定每一恢复数据点对应的数据值;所述统计信息用于表示原始数据和压缩数据的数据特征;将所有子查询时间段对应的数据值进行拼接,得到与所述查询时间段对应的恢复数据,能够基于每一压缩数据段的统计信息确定恢复数据的个数,能够提高得到的恢复数据的精确度。

    多级时序数据压缩方法、装置、电子设备及存储介质

    公开(公告)号:CN114547030B

    公开(公告)日:2023-03-24

    申请号:CN202210143038.9

    申请日:2022-02-16

    申请人: 清华大学

    发明人: 王建民 朱妤晴

    摘要: 本申请提供一种多级时序数据压缩方法、装置、电子设备及存储介质,该方法包括:接收待存储的时序数据并判断时序数据中是否存在压缩数据;若存在,则将压缩数据基于预定义的算法进行数据恢复;将恢复后的数据和除压缩数据外的时序数据按照时间顺序进行拼接,并对拼接后的数据进行压缩和存储。这样,可以针对除原始数据外的其它形式的数据进行压缩,确保其保留数据最重要规律特征的效果,提高压缩性能和精度。

    时序数据的聚合查询方法、装置及存储介质

    公开(公告)号:CN114547073A

    公开(公告)日:2022-05-27

    申请号:CN202210125131.7

    申请日:2022-02-10

    申请人: 清华大学

    IPC分类号: G06F16/242 G06F16/2458

    摘要: 本申请提供一种时序数据的聚合查询方法、装置及存储介质。该方法包括:获取时序数据聚合查询指令,数据聚合指令中包括查询时间段;若确定数据库中不存在与查询时间段在时间上完全重叠的时序数据段,则从数据库中获取与查询时间段具有时间交叠的N个其他时序数据段;根据每一其他时序数据段的数据特性信息,确定每一其他时序数据段的聚合方式,并对每一其他时序数据段中在时间上与查询时间段交叠的物联网时序数据进行聚合处理,得到对应的聚合查询结果;根据每一聚合查询结果,确定查询时间段对应的数据聚合查询结果。实现了基于时序数据在时序数据段内的分布情况,快速的确定聚合查询结果,提高了聚合查询结果的准确性。