一种大规模流式集合数据的分布式处理方法

    公开(公告)号:CN106990913B

    公开(公告)日:2019-07-26

    申请号:CN201710087603.3

    申请日:2017-02-17

    申请人: 清华大学

    IPC分类号: G06F3/06

    摘要: 本发明涉及一种大规模流式集合数据的分布式处理方法,属于计算机数据处理技术领域。首先基于分布式消息系统记录流式集合数据的完备状态,如果流式集合数据完备则消息系统生成对应的消息,分布式计算系统从分布式消息系统中提取流式集合数据的状态消息,将获取的流式集合数据存储到分布式存储系统,根据具体的处理算法和业务逻辑进行分布式处理和计算,并将处理结果存储到分布式存储系统中,完成对流式集合数据的处理。本发明方法可以有效的控制流式集合数据的处理流程,并利用集合数据的批量式计算提高系统的资源利用率。本方法可以快速、有效地处理目前日益增长的流式集合数据,十分适用于工业物联网、气象信息网等典型的大数据应用场景。

    一种基于时空深度学习的臭氧浓度分布预测方法和系统

    公开(公告)号:CN108108836B

    公开(公告)日:2019-02-05

    申请号:CN201711347771.8

    申请日:2017-12-15

    申请人: 清华大学

    IPC分类号: G06Q10/04 G06N3/08

    摘要: 本发明提供一种基于时空深度学习的臭氧浓度分布预测方法和系统,所述方法包括:获取当前时刻臭氧浓度分布图,并获取待预测时刻的气象数据;通过已训练的基于气象数据的臭氧浓度预测模型,对当前时刻臭氧浓度分布图和待预测时刻的气象数据进行处理,得到待预测时刻的臭氧浓度分布图。通过插值等方法被处理为臭氧浓度分布图序列及气象‑时间序列。使用递归神经网络处理一段时间的历史数据,抽取出臭氧浓度变化的趋势特征。使用卷积神经网络处理一天及一周之前的历史数据,最大程度的利用臭氧的周期性特征。同时,加入预测时刻的气象数据及时间数据作为额外输入,利用气象和时间对于臭氧的影响进一步提高预测准确性。

    基于层次化深度网络的长时序列数据处理方法

    公开(公告)号:CN107944488B

    公开(公告)日:2018-12-11

    申请号:CN201711167632.7

    申请日:2017-11-21

    申请人: 清华大学

    IPC分类号: G06K9/62 G06N3/04 G06N3/08

    摘要: 本发明实施例提供了一种基于层次化深度网络的长时序列数据处理方法,包括:S1,将所述长时序列数据输入训练好的层次化深度网络模型;S2,利用所述卷积层中的所述多对卷积核和池化核对所述长时序列数据进行单维卷积操作得到第一压缩时序数据集,并将所述第一压缩时序数据集中的所有压缩时序数据连结形成第一多维时序数据;S3,利用所述卷积层获取多个多维时序数据,并将所述多个多维时序数据中长度小于第一预设长度的多维时序数据进行组合形成第一数据集;S4,利用所述递归层和所述全连接层对所述第一数据集进行处理,以得到所述长时序列数据的分类结果向量。实现了层次化深度网络模型对长数据的自动化处理,且结果准确。

    一种时序数据乱序操作处理方法和装置

    公开(公告)号:CN107943519B

    公开(公告)日:2018-12-11

    申请号:CN201711322396.1

    申请日:2017-12-12

    申请人: 清华大学

    IPC分类号: G06F9/38

    摘要: 本发明提供一种时序数据乱序操作处理方法和装置,所述方法针对三种时序数据乱序操作,INSERT(t,v)操作:在时间点t插入新值v;UPDATE(t1,t2,v)操作:将时间段[t1,t2]更新为新值v;DELETE(t)操作:将时间点t之前的数据删除,定义了存储这三种操作的二叉搜索树的结构,该二叉树的每个节点表征一个时间区间段操作,所有节点的fix值满足小根堆性质,所有节点所存储的开始时间、结束时间满足二叉搜索树性质。每当一个新的乱序操作到来时,通过判断该操作与二叉搜索树根节点的交叉关系来对该操作与该二叉搜索树进行相应的修改,最终使得该二叉搜索树能够存储下该操作并能快速对数据进行查询。

    一种大数据分析流程的执行计划生成方法

    公开(公告)号:CN107885587B

    公开(公告)日:2018-12-07

    申请号:CN201711148535.3

    申请日:2017-11-17

    申请人: 清华大学

    IPC分类号: G06F9/48 G06Q10/10

    摘要: 本发明提供一种大数据分析流程的执行计划生成方法,所述方法根据每个分析任务生成了可执行的任务实例,然后根据任务实例中保存的依赖关系,建立有向无环图,按照依赖关系遍历依赖任务序列,并执行依赖实例,所述依赖实例为依赖任务的任务实例,所述依赖任务为所述依赖任务序列中与所述分析任务相依赖的其他分析任务,然后执行所述任务实例,生成任务结果文件。本发明提供的大数据分析流程的执行计划生成方法,根据大数据分析流程中分析任务具有数据传递关系的特点,以规则的形式强化了分析任务之间在数据上的关联关系,提高了大数据分析的效率,降低了大数据分析对技术人员技能的要求,避免将数据透露给大数据分析提供商,降低了安全风险。

    一种基于双层列表结构的容量扩充方法及系统

    公开(公告)号:CN108256103A

    公开(公告)日:2018-07-06

    申请号:CN201810111712.9

    申请日:2018-02-05

    申请人: 清华大学

    IPC分类号: G06F17/30

    CPC分类号: G06F17/30339

    摘要: 本发明提供一种基于双层列表结构的容量扩充方法及系统,双层列表结构的第一层列表为第一数组,第一数组中存储至少一个数组标识,第二层列表包括至少一个第二数组,每个第二数组用于存储待存储的数据,每个第二数组仅与一个数组标识对应,所述方法包括:当每个数组标识对应的第二数组中存储的数据数量均达到最大值时,则创建一个新的第一数组,新的第一数组的大小大于当前第一数组的大小,并增加第二数组的数量;将当前第一数组中存储的数组标识拷贝到新的第一数组中,并将当前第一数组替换为新的第一数组,能够有效减少数据在内存中的拷贝次数,有利于提高容量扩充速度;同时能够有效减少内存空间的浪费,一定程度上提高了内存空间的利用率。

    一种基于多层次列式存储结构的时序数据存储方法

    公开(公告)号:CN108182244A

    公开(公告)日:2018-06-19

    申请号:CN201711461821.5

    申请日:2017-12-28

    申请人: 清华大学

    IPC分类号: G06F17/30

    CPC分类号: G06F17/30091

    摘要: 本发明提供一种基于多层次列式存储结构的时序数据存储方法,将所有待存储时序数据存储于文件中,所述文件包括第一部分和第二部分;将每一待存储时序数据的获取时间和每一待存储时序数据的数据值存储于所述第一部分;将所述第一部分划分为若干个行组;将每一行组划分为若干个列组;将所有行组的个数、每一行组在文件的偏移量、每一行组中所有列组的个数、每一时序数据的属性值和每一列组在所述文件的偏移量作为所述第二部分。本方法对时序数据按列组织,将同一行组内的同一列的数据在文件中连续存储,从而使得被查询的数据在文件中处于相近的位置,可以减少查询时对时序数据的读取量,从而提高查询的速度,提高了磁盘的IO性能。

    一种基于时空深度学习的臭氧浓度分布预测方法和系统

    公开(公告)号:CN108108836A

    公开(公告)日:2018-06-01

    申请号:CN201711347771.8

    申请日:2017-12-15

    申请人: 清华大学

    IPC分类号: G06Q10/04 G06N3/08

    CPC分类号: G06Q10/04 G06N3/08

    摘要: 本发明提供一种基于时空深度学习的臭氧浓度分布预测方法和系统,所述方法包括:获取当前时刻臭氧浓度分布图,并获取待预测时刻的气象数据;通过已训练的基于气象数据的臭氧浓度预测模型,对当前时刻臭氧浓度分布图和待预测时刻的气象数据进行处理,得到待预测时刻的臭氧浓度分布图。通过插值等方法被处理为臭氧浓度分布图序列及气象‑时间序列。使用递归神经网络处理一段时间的历史数据,抽取出臭氧浓度变化的趋势特征。使用卷积神经网络处理一天及一周之前的历史数据,最大程度的利用臭氧的周期性特征。同时,加入预测时刻的气象数据及时间数据作为额外输入,利用气象和时间对于臭氧的影响进一步提高预测准确性。

    一种无监督机器学习的超参数自动优化方法及系统

    公开(公告)号:CN108062587A

    公开(公告)日:2018-05-22

    申请号:CN201711347747.4

    申请日:2017-12-15

    申请人: 清华大学

    IPC分类号: G06N99/00 G06N3/08

    CPC分类号: G06N3/088 G06N20/00

    摘要: 本发明提供一种无监督机器学习的超参数自动优化方法及系统,所述方法包括:根据无监督机器学习算法确定所述无监督机器学习算法的算法性能评估模型、所述无监督机器学习算法的超参数、所述超参数的搜索空间和所述超参数优化的评价准则;根据所述算法性能评估模型、所述搜索空间和所述评价准则确定所述超参数的最优值。本发明提供的无监督机器学习的超参数自动优化方法及系统,对无监督机器学习算法中的超参数问题进行深入剖析,分析算法中超参数的分布规律和不同超参数下学习效果的评估,并将此规律应用于机器学习的模型训练,达到自动化选择合适超参数的目的,整个超参数的优化过程自动完成,优化效率高,大大降低了算法的使用复杂性。

    一种层次结构的传感器时序数据存储方法和系统

    公开(公告)号:CN108038199A

    公开(公告)日:2018-05-15

    申请号:CN201711319768.5

    申请日:2017-12-12

    申请人: 清华大学

    IPC分类号: G06F17/30

    CPC分类号: G06F16/2474 G06F16/22

    摘要: 本发明提供一种层次结构的传感器时序数据存储方法和系统,所述方法包括:获取传感器的采集数据时,同时获取所述传感器的属性信息和所述采集数据的描述信息;将所述属性信息作为第一存储路径字节,将所述描述信息作为第二存储路径字节;将所述第一存储路径字节和所述第二存储路径字节组合形成一条数据存储路径,将所述采集数据存储到所述数据存储路径中。通过将时序数据的属性信息按照顺序排列,并结合时序数据的描述信息构成数据存储路径,引入了通配符匹配的方式增强语义,可以表达描述传感器唯一路径的全路径,描述多个传感器的前缀路径以及描述多个层级组合的带星路径,将传感器所涵盖的属性清晰、完整地表达出来,能够清晰表明属性信息之间的层级关联。