一种多变量时间序列数据聚类方法

    公开(公告)号:CN111488924A

    公开(公告)日:2020-08-04

    申请号:CN202010265442.4

    申请日:2020-04-07

    发明人: 王婷 崔运鹏 刘娟

    IPC分类号: G06K9/62 G06N3/04 G06N3/08

    摘要: 本发明公开了一种多变量时间序列数据聚类方法,包括对多变量时间序列数据进行归一化预处理;构建深度学习无监督学习模型稀疏自编码器,对多变量时间序列数据进行特征提取以构建新特征序列;获取样本数据新特征序列的聚类K值;基于欧式距离计算不同样本数据新特征序列之间的距离;对样本数据的新特征序列集进行聚类;根据聚类结果分析多变量时间序列数据的潜在模式。本发明通过稀疏自编码器模型和聚类方法,提高处理大规模数据的效率,并构建稀疏自编码器模型以提高模型对多变量时间序列数据提取新特征序列的性能,同时根据欧式距离构建了多变量距离计算模型以实现对多变量时间序列数据的聚类。

    基于PDF文档碎片化的行业动态交互式报告生成方法及系统

    公开(公告)号:CN111368515A

    公开(公告)日:2020-07-03

    申请号:CN202010137555.6

    申请日:2020-03-02

    摘要: 本发明公开了一种基于PDF文档碎片化的动态交互式报告生成方法,它包括如下步骤:建立行业动态交互式报告的目录结构,并用于报告的导航;遴选可靠的信息资源,采集其元数据及PDF全文文档,整合存储到创建好的数据库中;对PDF全文文档进行碎片化加工,并以XML格式在数据库中进行结构化存储;针对碎片化加工后的细颗粒信息单元,采用基于机器学习的文本自动分类方法行业信息分类体系,对碎片化信息单元进行分类标注,再形成的行业报告目录进行碎片化信息的动态重组,最终形成行业动态交互式报告。其优点是:可实现有针对性的阅读,提升信息输入的效率;能够一键生成定制化报告,进行多维度检索查询,提高查找资料或素材的效率。

    一种基于词向量模型的机构名称规范方法

    公开(公告)号:CN111984776B

    公开(公告)日:2023-08-11

    申请号:CN202010844347.X

    申请日:2020-08-20

    摘要: 本发明公开了一种基于词向量模型的机构名称规范方法,包括:分析科技文献数据机构名称字段特征,选取机构相关字段;提取文献相关字段信息文本,并对相关字段进行清洗和变换;采用word2vec词向量方法对提取文本信息构建词向量模型并对机构名称进行聚类;结合词向量模型和聚类文件查找相似度高的词,从中识别并提取机构名称;采用Jaro相似度方法通过设置阈值计算匹配相似机构名称。本发明能有效改善基于海量数据的科技评价中的数据可靠性问题,规范科技文献数据库中的机构名称存储与管理,从而提升科技文献数据库建设的规范性。

    一种可扩展的网络攻击行为分类方法

    公开(公告)号:CN111507385B

    公开(公告)日:2023-04-28

    申请号:CN202010268961.6

    申请日:2020-04-08

    IPC分类号: G06F21/55 G06V10/00 G06N3/04

    摘要: 本发明公开了一种可扩展的网络攻击行为分类方法,包括对网络流量数据进行数据预处理;对网络流量数据的多维特征属性提取新特征表达和最优原特征集;通过分类模型训练获取用于网络行为攻击类别初步判定的模型相关参数;获取网络行为属于已知攻击类别和正常行为的权重值和新攻击类别的权重值综合判定网络行为攻击类别。本发明优化了对网络攻击行为的分类结果,并通过在网络流量数据多维特征属性中提取新特征表达和选择能够最大化表达数据特性的最优原特征集分别优化监督学习模型和非监督学习模型,能够在保证对已知攻击类别判定准确率的基础上有效识别新攻击类别。