物联网机器数据的变换方法及装置

    公开(公告)号:CN108256089A

    公开(公告)日:2018-07-06

    申请号:CN201810068900.8

    申请日:2018-01-24

    申请人: 清华大学

    IPC分类号: G06F17/30

    CPC分类号: G06F16/2379 G06F16/2358

    摘要: 本发明实施例提供一种物联网机器数据的变换方法及装置,属于物联网技术领域。该方法包括:若机器数据的变换类型为交集投影变换,则判断机器数据中发生变化的传感器数据的变化类型是否为增加类型或删除类型;若机器数据中发生变化的传感器数据的变化类型为增加类型或删除类型,则从机器数据中删除发生变化的传感器数据。由于可通过版本和继承关系描述同类产品不同回传数据格式之间的差异,以及历史数据的变化关系,且能够在数据分析时为数据变换提供指导,从而解决物联网数据的管理问题。

    机器数据模型演化的自动感知方法及装置

    公开(公告)号:CN108171336A

    公开(公告)日:2018-06-15

    申请号:CN201810070182.8

    申请日:2018-01-24

    申请人: 清华大学

    IPC分类号: G06N99/00

    CPC分类号: G06N99/005

    摘要: 本发明实施例提供一种机器数据模型演化的自动感知方法及装置,属于物联网技术领域。该方法包括:对每一机器实例对应的传感器冲突记录中相同冲突类型的传感器冲突记录进行聚合,得到每一机器实例对应的机器冲突记录;根据每一机器实例对应的机器冲突记录及原始机器模型,获取每一机器实例在不同时刻的机器模型集合;将每一机器实例对应的机器模型集合中相同的机器模型进行合并,并基于合并结果更新每一机器实例对应的机器模型集合,以及机器实例集合与每一机器实例对应的机器模型集合之间的映射关系。由于可自动分析机器数据与原始机器模型之间的差异,从而可减少人工检查冲突的工作量,减少因模型记录更新不及时带来的对数据收集产生的影响。

    一种列式存储下多时间序列的连接查询方法及系统

    公开(公告)号:CN108062378A

    公开(公告)日:2018-05-22

    申请号:CN201711322631.5

    申请日:2017-12-12

    申请人: 清华大学

    IPC分类号: G06F17/30

    CPC分类号: G06F17/30548 G06F17/30551

    摘要: 本发明提供一种列式存储下多时间序列的连接查询方法,包括:将列式存储的多个时间序列划分为多个待查询序列和多个过滤序列,所述时间序列包括时间戳序列和数据值序列;从每一过滤序列的时间戳序列中筛选出每一过滤序列满足预设过滤条件的时间戳;基于每一过滤序列满足所述预设过滤条件的时间戳,对所述查询序列进行遍历,获取连接查询结果,所述连接查询结果为查询序列的时间戳以及查询序列的时间戳对应的数据值。本发明提供的一种列式存储下多时间序列的连接查询方法及系统,通过对所有列的过滤条件计算出满足该所有条件的时间戳,再通过该时间戳来对查询列进行查询,能够根据时序数据的特点进行有效的过滤及查询。

    个性化推荐方法
    34.
    发明授权

    公开(公告)号:CN104537114B

    公开(公告)日:2018-05-15

    申请号:CN201510030610.0

    申请日:2015-01-21

    申请人: 清华大学

    IPC分类号: G06F17/30 G06K9/62

    摘要: 本发明公开一种个性化推荐方法,涉及计算机数据处理技术领域,包括:获取用户对物品的使用行为数据;按照所获取的使用行为数据生成用户使用行为子列表;遍历所生成的用户使用行为子列表,估算物品的一步转移概率矩阵;基于用户对物品的兴趣的遗忘过程和马尔科夫模型建立个性化推荐模型;使用梯度下降法,对兴趣遗忘过程中用户的个性化参数进行估算,从而根据用户使用行为子列表,为用户进行推荐。本发明提供的个性化推荐方法,能够更准确的捕捉用户偏好的动态变化,这样的推荐方法就显得更具有实用价值。

    一种迁移学习最优算法选取方法及系统

    公开(公告)号:CN108009593A

    公开(公告)日:2018-05-08

    申请号:CN201711350974.2

    申请日:2017-12-15

    申请人: 清华大学

    IPC分类号: G06K9/62

    CPC分类号: G06K9/6256 G06K9/6267

    摘要: 本发明提供一种迁移学习最优算法选取方法,包括:获取源数据集的数据概率分布和目标数据集的数据概率分布;基于所述源数据集的数据概率分布和所述目标数据集的数据概率分布之间的数据重要性权重,将所述源数据集划分为第一集合和第二集合;将所述第一集合作为测试集、所述第二集合作为训练集,对预设算法库中每一算法分别进行同一学习任务的迁移学习,并计算每一算法对应的误差值;选取所述误差值最低对应的算法作为所述迁移学习的最优算法。本发明提供的一种迁移学习最优算法选取方法及系统,通过分析源数据集和目标数据集之间的数据重要性权重,从而选取出表现最好的算法作为迁移学习的最优算法。

    多分段多阈值约束的时间序列模式查找方法和系统

    公开(公告)号:CN107992840A

    公开(公告)日:2018-05-04

    申请号:CN201711322649.5

    申请日:2017-12-12

    申请人: 清华大学

    IPC分类号: G06K9/00

    CPC分类号: G06K9/00523 G06K9/0055

    摘要: 本发明提供一种多分段多阈值约束的时间序列模式查找方法和系统,查找方法包括:S1、将时间序列模式和滑动窗口分别划分成数目相等的窗口块,并且提取时间序列模式的指定个窗口块的特征,其中,时间序列模式由多个互不重叠的包括对应的预设阈值的子模式构成;S2、获取滑动窗口在流式时序数据上滑动至任一窗口时,滑动窗口的指定个窗口块的特征;S3、若判断获知任一窗口不能跳过,则从任一窗口开始,判断与滑动窗口的跳跃步长数相等的窗口块的流式时序数据和时间序列模式是否匹配,若匹配,则获取与滑动窗口的跳跃步长数相等的窗口块的流式时序数据作为查找结果。本发明能够对特征进行高效提取。并且,本发明可以高效的完成多阈值模式的精确比较。

    一种基于探测式深度网络的时空大数据预测方法

    公开(公告)号:CN107944550A

    公开(公告)日:2018-04-20

    申请号:CN201711339998.8

    申请日:2017-12-14

    申请人: 清华大学

    IPC分类号: G06N3/04 G06N3/08

    摘要: 本发明提供一种基于探测式深度网络的时空大数据预测方法,包括:将时空序列输入训练好的探测式卷积递归神经网络模型,获取预测结果;模型训练方法包括:将前K个时刻的空间数据输入编码器,获取K+1时刻的空间数据预测值;将K+1时刻的空间数据预测值输入预测器,获取K+2至K+J时刻的空间数据预测值;将K+1至K+J-1时刻的空间数据输入探测器,获取K+2至K+J时刻的空间数据探测值;根据空间数据预测值、空间数据探测值和时空序列,应用损失函数计算预测器和探测器的输出值与时空序列的差距;对所述模型进行优化并重复上述步骤,直至差距满足预设条件。本发明提供的方法,充分利用了数据潜在知识,提高了预测结果精度。

    基于层次化深度网络的长时序列数据处理方法

    公开(公告)号:CN107944488A

    公开(公告)日:2018-04-20

    申请号:CN201711167632.7

    申请日:2017-11-21

    申请人: 清华大学

    IPC分类号: G06K9/62 G06N3/04 G06N3/08

    摘要: 本发明实施例提供了一种基于层次化深度网络的长时序列数据处理方法,包括:S1,将所述长时序列数据输入训练好的层次化深度网络模型;S2,利用所述卷积层中的所述多对卷积核和池化核对所述长时序列数据进行单维卷积操作得到第一压缩时序数据集,并将所述第一压缩时序数据集中的所有压缩时序数据连结形成第一多维时序数据;S3,利用所述卷积层获取多个多维时序数据,并将所述多个多维时序数据中长度小于第一预设长度的多维时序数据进行组合形成第一数据集;S4,利用所述递归层和所述全连接层对所述第一数据集进行处理,以得到所述长时序列数据的分类结果向量。实现了层次化深度网络模型对长数据的自动化处理,且结果准确。

    一种分布式存储系统中多维数据的存储模式转换方法

    公开(公告)号:CN107943927A

    公开(公告)日:2018-04-20

    申请号:CN201711168592.8

    申请日:2017-11-21

    申请人: 清华大学

    IPC分类号: G06F17/30

    CPC分类号: G06F17/30339 G06F17/30569

    摘要: 本发明提供一种分布式存储系统中多维数据的存储模式转换方法,该方法包括:S1,根据当前数据表的当前行键集合和目标数据表的目标行键集合,获取公共行键集合和原始行键集合;S2,对原始行键集合中所有维度的所有取值进行分区,并对所有分区并行扫描,以读取每一个分区中的所有取值;S3,根据所有分区中的每一个取值,逐条读取当前数据表中对应的多维数据;S4,根据目标行键集合,将读取出的每一条多维数据,写入目标数据表中。本发明提供的方法,在读取多维数据之时,避免了节点之间的网络传输,提高了多维数据的读取效率,减少了多维数据存储模式转换过程中的开销,进而提升了多维数据存储模式转换效率。

    一种时序数据乱序操作处理方法和装置

    公开(公告)号:CN107943519A

    公开(公告)日:2018-04-20

    申请号:CN201711322396.1

    申请日:2017-12-12

    申请人: 清华大学

    IPC分类号: G06F9/38

    CPC分类号: G06F9/3836

    摘要: 本发明提供一种时序数据乱序操作处理方法和装置,所述方法针对三种时序数据乱序操作,INSERT(t,v)操作:在时间点t插入新值v;UPDATE(t1,t2,v)操作:将时间段[t1,t2]更新为新值v;DELETE(t)操作:将时间点t之前的数据删除,定义了存储这三种操作的二叉搜索树的结构,该二叉树的每个节点表征一个时间区间段操作,所有节点的fix值满足小根堆性质,所有节点所存储的开始时间、结束时间满足二叉搜索树性质。每当一个新的乱序操作到来时,通过判断该操作与二叉搜索树根节点的交叉关系来对该操作与该二叉搜索树进行相应的修改,最终使得该二叉搜索树能够存储下该操作并能快速对数据进行查询。