一种基于编辑距离和后缀数组的时间序列变长模体挖掘方法

    公开(公告)号:CN118606382A

    公开(公告)日:2024-09-06

    申请号:CN202410804046.2

    申请日:2024-06-20

    申请人: 河海大学

    摘要: 本发明公开了一种基于编辑距离和后缀数组的时间序列变长模体挖掘方法,步骤为:(1)对时间序列按照窗口长度和步长提取子序列;(2)对提取出的子序列经过SAX符号表示将子序列变成符号序列;(3)选择DC3后缀数组算法对符号序列进行处理,获得后缀数组;(4)使用基于索引提取匹配前缀的方法,按照原始索引顺序在后缀数组中进行匹配前缀的搜索。(5)基于编辑距离的容错匹配,设置一个基于编辑距离的容错参数,进行容错匹配,减小字符串匹配的难度,便于找到更长且完整的变长模体。

    基于后缀树的时间序列变长模体挖掘方法

    公开(公告)号:CN113722374B

    公开(公告)日:2023-12-01

    申请号:CN202110870995.7

    申请日:2021-07-30

    申请人: 河海大学

    IPC分类号: G06F16/2458

    摘要: 本申请涉及一种基于后缀树的时间序列变长模体挖掘方法。该方法包括:通过基于斜率进行模式表示,设定变化率阈值,提取所有的边缘点,获得边缘点集合;利用所述边缘点集合的边缘点构建后缀树,利用所述后缀树统计边缘点子序列频率,频率最大的边缘点子序列即为频繁模式;将所述频繁模式映射回原时间序列,记录变长模体位置;根据所述变长模体位置,计算变长模体之间的Matrix Profile值,所述Matrix Profile值最小的即为有效模体,加入有效模体的提取,解决了符号化隐藏极值点信息而引发的模体发现精度低的问题,提高了时间序列变长模体挖掘精度。

    一种结合文档关键信息的句子级中文事件检测的方法

    公开(公告)号:CN113505200B

    公开(公告)日:2023-11-24

    申请号:CN202110801337.2

    申请日:2021-07-15

    申请人: 河海大学

    摘要: 本发明公开了一种结合文档关键信息的句子级中文事件检测的方法,属于自然语言处理中文本信息抽取技术领域,包括:对数据进行BIO序列标注;获取句子所在文档中关键句子;获取文档关键句子向量表示和待检测的句子中字符向量表示;将待检测句子中字符向量表示和文档关键句子向量结合;建立事件触发词抽取模型。首先,使用BIO标注方法对中文句子中每个字符进行标注。其次,使用TextRank算法获取文档中关键句子。然后,使用BERT中文预训练模型对关键句产生文档向量表示,以及对句子中每个字符产生向量表示。最后,使用神经网络模型对句子中触发词进行抽取。本发明通过结合文档中关键信息来获取文档主题,弥补句子内信息缺乏,以此

    一种基于自适应差分进化的组合水文预测模型的构建方法

    公开(公告)号:CN112183721B

    公开(公告)日:2022-04-26

    申请号:CN202010976107.5

    申请日:2020-09-16

    申请人: 河海大学

    摘要: 本发明公开一种基于自适应差分进化的组合水文预测模型的构建方法,包括以下步骤:构建水文数据集,构建水文基模型,构建最终的组合水文预测模型。本发明基于自适应差分进化方法选择长短期记忆网络(LSTM)作为基模型,结合把种群中优秀的个体和个体适应度保存在临时数组中的思想,通过选择前m个优秀水文参数作为各个基模型的初始参数,建立加权组合模型ADE‑LSTMs,来增加预测的鲁棒性,提高单一模型的预测精度。

    基于聚类分析和实时校正的洪水预报方法

    公开(公告)号:CN106650767B

    公开(公告)日:2020-10-27

    申请号:CN201610835246.X

    申请日:2016-09-20

    申请人: 河海大学

    IPC分类号: G06K9/62 G06N3/08

    摘要: 本发明公开了基于聚类分析和实时校正的洪水预报方法,步骤为:一是利用主成分分析(PCA)对模型的输入做降维处理。二是利用K‑means聚类方法对原始数据进行聚类分析。将洪水数据划分为不同的类别,然后训练不同的SVM模型,当输入测试样本,利用聚类质心判断该测试样本所属的类别,并用对应的模型对其进行预测,得到预测值q;三是BP神经网络实时校正。计算预测值与真实值的误差序列,利用误差序列数据训练BP神经网络误差校正模型,得到误差校正值qe,最终预报结果为模型预报值q加上误差预报值qe。本发明的优点在于:通过聚类分析将原始水文数据分为几类,分别训练模型,实现多模型预报;然后通过BP神经网络实现实时校正提高了洪峰时刻预报准确率。

    基于Boosting算法和支持向量机的洪水预报方法

    公开(公告)号:CN105139093B

    公开(公告)日:2019-05-31

    申请号:CN201510564457.X

    申请日:2015-09-07

    申请人: 河海大学

    IPC分类号: G06Q10/04 G06K9/62

    CPC分类号: Y02A10/46

    摘要: 本发明公开了一种基于Boosting算法和支持向量机的洪水预报方法,该方法包括如下步骤:运用相关系数法确定预报因子;利用核主成分分析对所述预报因子进行降维处理;利用Boosting算法选取样本建立多个支持向量机预测模型,引入损失函数和相关系数调整样本权重,最后组合为一个总预测模型;利用所述总预测模型对测试样本进行预测。本发明前两个步骤是数据预处理,目的是提取洪水数据中的有用信息,消除冗余信息对预报造成的干扰。第三个步骤将Boosting算法引入到洪水预报中,尽量将前一个模型不能很好学习的样本,抽取出来用于训练下一个模型,这样组合后的模型可以有效提高洪水预报准确率,最后一个步骤用于检验模型效果。实验数据表明本方案能很好地提高预报精度。

    一种水文时间序列异常模式检测方法

    公开(公告)号:CN106951680A

    公开(公告)日:2017-07-14

    申请号:CN201710092513.3

    申请日:2017-02-21

    申请人: 河海大学

    发明人: 王继民

    IPC分类号: G06F19/00 G06F17/30

    CPC分类号: G06F19/00 G06F17/30536

    摘要: 本发明公开一种水文时间序列异常模式检测方法,包括以下步骤:步骤1:采集历年的水位数据,根据时间的顺序,以年为单位组成每年的水位时间序列;步骤2:对每年水位时间序列进行分割,产生水位子序列;步骤3:水位子序列进行线性分段,形成维度低的水位子序列;步骤4:对步骤3中获得的水位子序列进行分组,将同时间段的子序列划分为一组;步骤5:在同一组子序列中结合平均变化距离和积累变化距离进行异常子序列的检测。本发明提供的方法不仅计算量小,有效缩短了检测的时间,同时获得的结果准确性更高,有效的避免了检测失败的可能。采用本发明提供方法能够更好的对水文进行研究和观察。

    一种基于负相关反馈的时间序列相似性搜索方法

    公开(公告)号:CN106547816A

    公开(公告)日:2017-03-29

    申请号:CN201610854977.9

    申请日:2016-09-27

    申请人: 河海大学

    IPC分类号: G06F17/30

    摘要: 本发明提供一种基于负相关反馈的时间序列相似性搜索方法,用户根据初步的查询结果标注出时间序列数据集中负相关序列以及正相关序列并将负相关序列组合成一个序列记为Qneg,正相关序列以及查询序列组合成一个序列记为Qnew。其次是分别计算数据序列集中的每一个序列与Qnew的相似度以及Qneg的相似度;并且通过组合每一个序列与Qnew的相似度以及Qneg的相似度得到一个最终的相似度。最后根据每一个时间序列所得到的相似度进行排名得到最终的相似性结果。用户对这一结果进行评判若是满意则查询结束,若不满意则修改查询序列重新查询。本发明查询效率高,查询结果精准,满意度高,方法整体性能高。

    基于传播时间聚类分析的多模型集成洪水预报方法

    公开(公告)号:CN103729550B

    公开(公告)日:2016-08-17

    申请号:CN201310699773.9

    申请日:2013-12-18

    申请人: 河海大学

    IPC分类号: G06F19/00

    摘要: 本发明公开了一种基于传播时间聚类分析的多模型集成洪水预报方法,属于水文预报技术领域。首先采用派生的动态时间弯曲匹配方法进行洪水过程相似性分析,估计上下游各站点的流量传播时间,并通过对流量传播时间进行聚类分析将样本分解为若干簇,然后分别对子流量序列建立SVM回归模型模拟洪水形成过程,最后再将这些子模型合并成一个综合模型。将该方法的综合预测结果与常规条件下的单一模型和基于流量聚类的模型预测结果相比较,结果显示该模型综合表现更佳。