数据异常检测方法和装置
    71.
    发明授权

    公开(公告)号:CN110287048B

    公开(公告)日:2020-06-02

    申请号:CN201910383583.3

    申请日:2019-05-09

    申请人: 清华大学

    IPC分类号: G06F11/07

    摘要: 本发明实施例提供一种数据异常检测方法和装置。所述方法包括:对各数据集按照属性进行去一划分,并根据划分后的数据集的信息熵计算各属性的权值;根据各属性的权值计算各数据集中不同数据对象间的余弦距离,并根据各数据对象与其他数据对象间的余弦距离计算各数据对象的初始异常值;对计算好所有数据对象的初始异常值的各数据集按照时序插入有序序列;根据序列中任一数据集的上一时刻和下一时刻的数据集的异常状态更新所述任一数据集的数据对象的初始异常值;对各数据集的数据进行检测,对异常值超过指定阈值的数据判断为异常。本发明实施例能够对区块链第三方存储介质上数据进行检测,具有较好的准确率和召回率。

    一种基于界标的数据填补方法及装置

    公开(公告)号:CN111177135A

    公开(公告)日:2020-05-19

    申请号:CN201911381294.6

    申请日:2019-12-27

    申请人: 清华大学

    摘要: 本发明实施例提供一种基于界标的数据填补方法及装置,该方法包括:获取待填补的原始数据,所述原始数据包括完整数据行和缺失数据行;将所述原始数据中的完整数据行输入至预设的生成对抗网络模型,输出完整数据行的界标;根据完整数据行的界标和完整数据行,对缺失数据行进行填补,得到填补后的缺失数据行;其中,所述生成对抗网络模型,根据多个完整数据行样本和对应的界标标签进行训练后得到。该方法能够得到数据行在值空间的准确界标,综合考虑到了界标数据和无缺失的完整数据,在数据缺少近邻点的情况下,也能进行填补。另外,填补数据部分依据真实的完整数据,能够有效避免神经网络的过拟合问题。

    一种时间戳修复方法及装置

    公开(公告)号:CN111061714A

    公开(公告)日:2020-04-24

    申请号:CN201911275484.X

    申请日:2019-12-12

    申请人: 清华大学

    IPC分类号: G06F16/215

    摘要: 本发明实施例提供一种时间戳修复方法及装置,该方法包括:基于密度异常检测算法对数据点进行异常检测,得到异常数据点集合信息;基于任意最优求解方法对异常数据点集合信息进行分析,得到目标时间戳修改信息;根据目标时间戳修改信息对异常数据点集合信息进行时间戳修复,得到修复后的时间戳属性信息。通过密度异常检测算法对数据点进行异常数据点标记,并得到异常数据点集合,针对于异常数据点进行最小时间戳修复,从而实现对于异常数据点的修复,并将修复的异常数据点从异常数据点集合信息中删除,并将其添加到正常数据点中,从而实现对于数据点的分布以及密度的改变,避免了修复后的数据和原始数据之间差距过大而导致的信息丢失的问题。

    时序数据的编码方法及装置

    公开(公告)号:CN110545106A

    公开(公告)日:2019-12-06

    申请号:CN201910721876.8

    申请日:2019-08-06

    申请人: 清华大学

    IPC分类号: H03M7/30 G06F3/06

    摘要: 本发明实施例提供一种时序数据的编码方法及装置,其中方法包括:获取时序数据以及时序数据的原始二阶差分序列,获取原始二阶差分序列的紧凑编码占用的存储空间Cold;将原始二阶差分序列中不小于预设阈值的二阶差分拆分成若干个小于预设阈值的二阶差分,并根据新的二阶差分序列生成标识序列,标识序列用于标记新的二阶差分序列中的各二阶差分是否为原始二阶差分;获取新的二阶差分序列的紧凑编码和标识序列占用的存储空间Cs,若存储空间Cs小于存储空间Cold,则根据新的二阶差分序列的紧凑编码以及标识序列生成编码策略。本发明实施例能够高效地确定编码策略,有效地解决现有技术容易受到突变点、异常点以及缺失值影响的缺点。

    一种错误数据容忍的虚警过滤方法和装置

    公开(公告)号:CN110286656A

    公开(公告)日:2019-09-27

    申请号:CN201910374187.4

    申请日:2019-05-07

    申请人: 清华大学

    IPC分类号: G05B19/418

    摘要: 本发明实施例提供一种错误数据容忍的虚警过滤方法和装置。该方法包括获取传感器测量得到的设备对应的时序数据,根据所述设备正常运行所对应的状态参数值,确定所述时序数据中包括的疑似时间序列;根据预设的相似度匹配方法,计算每一所述疑似时间序列与历史真警对应的报警时间序列之间的相似度,将对应的相似度高于相似度阈值的疑似时间序列确定为真警,根据预设的异常因子检测算法计算每个对应的相似度不高于所述相似度阈值的疑似时间序列的异常度;根据每个对应的相似度不高于所述相似度阈值的疑似时间序列的异常度,对所述疑似时间序列是否为真警进行判断。本发明实施例能够过滤掉绝大部分错误数据引起的虚警,提高报警的准确率。

    一种多时间序列时间戳对齐的方法和装置

    公开(公告)号:CN110275496A

    公开(公告)日:2019-09-24

    申请号:CN201910397191.2

    申请日:2019-05-14

    申请人: 清华大学

    IPC分类号: G05B19/418

    摘要: 本发明实施例提供一种多时间序列时间戳对齐的方法和装置。该方法包括获取在当前的缓存周期内,缓存器中所缓存的主时间序列的数据点和待对齐时间序列的数据点;执行时间戳对齐的步骤,具体包括:确定主时间序列的数据点中的目标数据点;其中,目标数据点为主时间序列在当前的缓存周期内,最早进入缓存器的数据点;根据最近匹配规则,确定待对齐时间序列的数据点中的对齐数据点;其中,最近匹配规则为对齐数据点与目标数据点之间的时间戳距离最小;根据目标数据点和对齐数据点,将缓存器中所缓存的主时间序列的数据点和待对齐时间序列的数据点进行时间戳对齐,获得对齐结果并输出。本发明实施例为多条时序序列进行时间戳对齐提供高效的解决方案。

    一种基于球面网格遥感数据文件集的键值存储方法及装置

    公开(公告)号:CN110263017A

    公开(公告)日:2019-09-20

    申请号:CN201910500955.6

    申请日:2019-06-11

    申请人: 清华大学

    IPC分类号: G06F16/21 G06F16/27 G06F16/22

    摘要: 本发明实施例提供一种基于球面网格遥感数据文件集的键值存储方法和装置。所述方法包括:获取每个遥感数据源文件的文件名和文件大小,并根据所述文件名确定所述遥感数据源文件的数据格式;根据所述数据格式调用与所述数据格式对应的剖分处理函数解析所述遥感数据源文件中的遥感数据;若判断获知所述文件大小大于阈值,则根据正多面体球面网格剖分方法将解析后的所述遥感数据源文件的遥感数据按照预设存储格式拆分存储到数据库中。所述装置用于执行上述方法。本发明实施例提供的基于球面网格遥感数据文件集的键值存储方法及装置,提高了遥感数据的存储效率。

    一种基于滑动窗口的数据可视化方法和系统

    公开(公告)号:CN108073700B

    公开(公告)日:2019-06-18

    申请号:CN201711320723.X

    申请日:2017-12-12

    申请人: 清华大学

    IPC分类号: G06F16/904

    摘要: 本发明提供一种基于滑动窗口的数据可视化方法和系统,可视化方法包括:基于滑动窗口的长度和显示区域宽度上的像素数目,确定滑动窗口中的每一像素列的流数据点数;对于任一像素列,获取任一像素列的第一个流数据点、最后一个流数据点、流数据最大值点和流数据最小值点组成一像素列组,作为任一像素列对应的像素列组;多个像素列组组成一个维护列组,将维护列组存入循环数组,多个像素列组的维护列组数目与显示区域宽度上的像素数目相等;对维护列组中的所有流数据点进行重新渲染,以使得数据可视化。本发明大大缩减了数据量,对于内存占用、渲染效率都有很大的提升。本发明可以在流数据高速到来的条件下,对滑动窗口内的流数据进行高效的渲染。

    一种识别时间序列的数据模式的方法及装置

    公开(公告)号:CN108182341B

    公开(公告)日:2019-05-14

    申请号:CN201711474581.2

    申请日:2017-12-29

    申请人: 清华大学

    IPC分类号: G06F17/50

    摘要: 本发明实施例提供一种识别时间序列的数据模式的方法及装置,所述方法包括:获取待识别数据模式的时间序列;所述时间序列中每个时刻对应有观测所述数据模式的观测值;根据所述观测值,以及预设数值范围对应的事件,确定所述时间序列每个分段对应的事件;根据已确定的每个分段对应的事件确定同类事件,并生成所述同类事件的带权结构;根据所述带权结构,从已知数据模式的带权结构集中选择目标带权结构;并将所述目标带权结构对应的已知数据模式作为所述数据模式的识别结果。所述装置执行上述方法。本发明实施例提供的方法及装置、能够突破识别时间序列的数据模式的局限性、并提高识别结果的准确性。

    基于向量时钟的分布式键值数据库的副本修复方法与装置

    公开(公告)号:CN109739684A

    公开(公告)日:2019-05-10

    申请号:CN201811384997.X

    申请日:2018-11-20

    申请人: 清华大学

    IPC分类号: G06F11/14

    摘要: 本发明实施例提供一种基于向量时钟的分布式键值数据库的副本修复方法与装置,其中所述方法包括:分别为每个节点对应分配一个向量时钟,并设置一个写操作版本变量,向量时钟的各分量表示相应节点作为写操作的协调者节点的写操作,写操作版本变量记录写操作版本号;在每次进行写操作时,更新执行写操作的节点对应的写操作版本号,并基于向量时钟和写操作版本号,记录不同节点间的丢失写操作序列;基于更新的写操作版本号和丢失写操作序列,读取其余副本所在节点写操作的最新数据,以供待修复副本所在节点根据最新数据,修复待修复副本。本发明实施例能够有效降低修复过程的繁琐程度,提高修复效率。