一种多变量时间序列数据聚类方法

    公开(公告)号:CN111488924A

    公开(公告)日:2020-08-04

    申请号:CN202010265442.4

    申请日:2020-04-07

    发明人: 王婷 崔运鹏 刘娟

    IPC分类号: G06K9/62 G06N3/04 G06N3/08

    摘要: 本发明公开了一种多变量时间序列数据聚类方法,包括对多变量时间序列数据进行归一化预处理;构建深度学习无监督学习模型稀疏自编码器,对多变量时间序列数据进行特征提取以构建新特征序列;获取样本数据新特征序列的聚类K值;基于欧式距离计算不同样本数据新特征序列之间的距离;对样本数据的新特征序列集进行聚类;根据聚类结果分析多变量时间序列数据的潜在模式。本发明通过稀疏自编码器模型和聚类方法,提高处理大规模数据的效率,并构建稀疏自编码器模型以提高模型对多变量时间序列数据提取新特征序列的性能,同时根据欧式距离构建了多变量距离计算模型以实现对多变量时间序列数据的聚类。

    一种基于分组的文档内容差异对比可视化分析方法

    公开(公告)号:CN110852059A

    公开(公告)日:2020-02-28

    申请号:CN201911111334.5

    申请日:2019-11-14

    IPC分类号: G06F40/194

    摘要: 本发明公开了一种基于分组的文档内容差异对比可视化分析方法,包括对所述目标数据集进行文本清洗和降噪处理后得到核心数据集;在所述核心数据集上创建分组,将所述核心数据集按类别分组,并任意确定两个待分析的目标分组;针对所述目标分组构建分组语料库,将每个特征词看作以领域特征得分为横坐标、类别关联归一化F值为纵坐标的数据点,在二维坐标系下可视化展现分组文档特征词关联分布散点图。本发明能够帮助用户清晰洞察分组文档主题内容的语义对比差异,同时为用户提供一种交互式查询特征词所在文档的窗口,便于跟踪特征词在文档中分布的分组对比情况。

    一种基于分组的文档内容差异对比可视化分析方法

    公开(公告)号:CN110852059B

    公开(公告)日:2023-08-29

    申请号:CN201911111334.5

    申请日:2019-11-14

    IPC分类号: G06F40/194

    摘要: 本发明公开了一种基于分组的文档内容差异对比可视化分析方法,包括对所述目标数据集进行文本清洗和降噪处理后得到核心数据集;在所述核心数据集上创建分组,将所述核心数据集按类别分组,并任意确定两个待分析的目标分组;针对所述目标分组构建分组语料库,将每个特征词看作以领域特征得分为横坐标、类别关联归一化F值为纵坐标的数据点,在二维坐标系下可视化展现分组文档特征词关联分布散点图。本发明能够帮助用户清晰洞察分组文档主题内容的语义对比差异,同时为用户提供一种交互式查询特征词所在文档的窗口,便于跟踪特征词在文档中分布的分组对比情况。

    一种动态知识热点演化及趋势分析方法

    公开(公告)号:CN111694930A

    公开(公告)日:2020-09-22

    申请号:CN202010528034.3

    申请日:2020-06-11

    发明人: 侯颖 崔运鹏 刘娟

    摘要: 本发明公开了一种动态知识热点演化及趋势分析方法,所述方法包括通过时间变化对给定文献中的潜在主题进行动态建模,捕捉主题随时间的动态演变。通过动态建模得出所有文档的主题偏好,供用户通过主题下的热点单词定位文献信息。本发明所提供的动态知识热点演化及趋势分析方法以曲线图的形式直观呈现主题中单词的变化趋势,帮助用户了解或预测主题词的发展趋势,以及帮助用户通过主题下的热点词定位到与其相关的文献信息,方便用户对目标学科领域进行快速评估和了解。

    一种基于信令数据的移动电话用户移动路径地图匹配方法

    公开(公告)号:CN111521191A

    公开(公告)日:2020-08-11

    申请号:CN202010311822.7

    申请日:2020-04-20

    IPC分类号: G01C21/34 G01S19/42 G06K9/62

    摘要: 本发明公开了一种基于信令数据的移动电话用户移动路径地图匹配方法,通过一序列的几何识别及处理,优化路径搜索空间,减少路径识别的不确定性,同时提高计算速度。在此基础上,运行最短路径搜索算法,并通过距离函数优化匹配最优解。本发明所提供的基于信令数据的移动电话用户移动路径地图匹配方法充分考虑了用户不同的日常活动模式,使用时空聚类算法将用户移动轨迹分割为子移动轨迹,再分别进行地图匹配,通过路径匹配搜索空间限定策略,减少了路径分析计算量。本发明提供了深度搜索可选功能,通过距离损失函数进行优化,寻找最优地图匹配结果。

    一种动态知识热点演化及趋势分析方法

    公开(公告)号:CN111694930B

    公开(公告)日:2023-11-14

    申请号:CN202010528034.3

    申请日:2020-06-11

    发明人: 侯颖 崔运鹏 刘娟

    摘要: 本发明公开了一种动态知识热点演化及趋势分析方法,所述方法包括通过时间变化对给定文献中的潜在主题进行动态建模,捕捉主题随时间的动态演变。通过动态建模得出所有文档的主题偏好,供用户通过主题下的热点单词定位文献信息。本发明所提供的动态知识热点演化及趋势分析方法以曲线图的形式直观呈现主题中单词的变化趋势,帮助用户了解或预测主题词的发展趋势,以及帮助用户通过主题下的热点词定位到与其相关的文献信息,方便用户对目标学科领域进行快速评估和了解。

    一种基于词向量模型的机构名称规范方法

    公开(公告)号:CN111984776B

    公开(公告)日:2023-08-11

    申请号:CN202010844347.X

    申请日:2020-08-20

    摘要: 本发明公开了一种基于词向量模型的机构名称规范方法,包括:分析科技文献数据机构名称字段特征,选取机构相关字段;提取文献相关字段信息文本,并对相关字段进行清洗和变换;采用word2vec词向量方法对提取文本信息构建词向量模型并对机构名称进行聚类;结合词向量模型和聚类文件查找相似度高的词,从中识别并提取机构名称;采用Jaro相似度方法通过设置阈值计算匹配相似机构名称。本发明能有效改善基于海量数据的科技评价中的数据可靠性问题,规范科技文献数据库中的机构名称存储与管理,从而提升科技文献数据库建设的规范性。

    一种可扩展的网络攻击行为分类方法

    公开(公告)号:CN111507385B

    公开(公告)日:2023-04-28

    申请号:CN202010268961.6

    申请日:2020-04-08

    IPC分类号: G06F21/55 G06V10/00 G06N3/04

    摘要: 本发明公开了一种可扩展的网络攻击行为分类方法,包括对网络流量数据进行数据预处理;对网络流量数据的多维特征属性提取新特征表达和最优原特征集;通过分类模型训练获取用于网络行为攻击类别初步判定的模型相关参数;获取网络行为属于已知攻击类别和正常行为的权重值和新攻击类别的权重值综合判定网络行为攻击类别。本发明优化了对网络攻击行为的分类结果,并通过在网络流量数据多维特征属性中提取新特征表达和选择能够最大化表达数据特性的最优原特征集分别优化监督学习模型和非监督学习模型,能够在保证对已知攻击类别判定准确率的基础上有效识别新攻击类别。

    一种科技文献检索意图构建方法
    10.
    发明公开

    公开(公告)号:CN110781285A

    公开(公告)日:2020-02-11

    申请号:CN201911045820.1

    申请日:2019-10-30

    IPC分类号: G06F16/332 G06F16/35

    摘要: 本发明公开了一种科技文献检索意图构建方法,包括对文献主题聚类进行可视化,并给出主题关键词供用户交互选择。通过word2vec向量查询用户选择详尽的前五相似概念,并提供给用户交互选择。本发明所提供的基于词表模型的用户检索意图判断方法充分挖掘了用户输入中包含的意图信息并利用了词表模型中的语义关联,通过分析用户检索请求之间的语义关联分析用户可能的检索意图,并在此基础上构建检索式,进行二次精确检索。