一种流式数据主题挖掘方法及其系统

    公开(公告)号:CN107992474B

    公开(公告)日:2021-04-27

    申请号:CN201711193285.5

    申请日:2017-11-24

    摘要: 本发明涉及一种流式数据主题挖掘方法及其系统,该挖掘方法包括:对结构化数据进行筛选,得到主题数据,提取主题数据的主题实体和主题关键词,分别生成主题实体集合和主题关键词集合;提取候选新闻数据的新闻实体和新闻关键词,分别生成新闻实体集合和新闻关键词集合;分别计算得到实体相关度、关键词相关度和核心词相关度;计算候选新闻数据与主题数据的新闻主题相似度,并将新闻主题相似度大于预设阈值的候选新闻数据导入合格新闻数据集合。本发明能够从海量的实时流式数据中准确找到用户关注的特定主题的相关新闻,保证了该主题下新闻的实时性、准确性,以及该主题下新闻动态的变化过程,并对新闻内容进行了分析。

    基于逐点互信息技术的诈骗信息特征词提取方法及系统

    公开(公告)号:CN107992473B

    公开(公告)日:2021-04-27

    申请号:CN201711190871.4

    申请日:2017-11-24

    IPC分类号: G06F40/289 G06F16/35

    摘要: 本发明涉及一种基于逐点互信息技术的诈骗信息特征词提取方法及系统,该提取方法包括:提取诈骗信息主题关键词,组成主题关键词集合;将信息组中的信息按是否为诈骗信息划分为正样本集合和负样本集合,并得到正样本分词集合、负样本候分词集合和候选关键词集合;根据候选关键词集合的候选关键词在信息组的正相互性PMI值和负相互性PMI值得到候选关键词在信息组的权重,将权重大于预设阈值的候选关键词记为信息组的合格关键词。本发明通过对信息组中的信息进行处理,得到候选关键词集合,计算候选关键词相对于信息的正相互性PMI值和负相互性PMI值,得到候选关键词的权重,由此判断是否为合格关键词,实现了对数据流式信息的关键词提取。

    基于逐点互信息技术的诈骗信息特征词提取方法及系统

    公开(公告)号:CN107992473A

    公开(公告)日:2018-05-04

    申请号:CN201711190871.4

    申请日:2017-11-24

    IPC分类号: G06F17/27 G06F17/30

    摘要: 本发明涉及一种基于逐点互信息技术的诈骗信息特征词提取方法及系统,该提取方法包括:提取诈骗信息主题关键词,组成主题关键词集合;将信息组中的信息按是否为诈骗信息划分为正样本集合和负样本集合,并得到正样本分词集合、负样本候分词集合和候选关键词集合;根据候选关键词集合的候选关键词在信息组的正相互性PMI值和负相互性PMI值得到候选关键词在信息组的权重,将权重大于预设阈值的候选关键词记为信息组的合格关键词。本发明通过对信息组中的信息进行处理,得到候选关键词集合,计算候选关键词相对于信息的正相互性PMI值和负相互性PMI值,得到候选关键词的权重,由此判断是否为合格关键词,实现了对数据流式信息的关键词提取。

    一种微博舆情指标体系的计算方法及装置

    公开(公告)号:CN106294334A

    公开(公告)日:2017-01-04

    申请号:CN201510236658.7

    申请日:2015-05-11

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种微博舆情指标体系的计算方法及装置。其中,该方法包括:构建微博舆情指标体系;其中,微博舆情指标体系包括:微博主体、微博信息、微博话题和微博舆情;计算微博主体的活跃度和影响力;计算微博信息的热度和影响力;计算微博话题的热度和影响力;基于计算结果得到微博舆情综合指数。本发明构建了微博舆情指标体系,并且基于微博舆情指标体系,可准确获取得到微博舆情综合指数。解决了相关技术中舆情分析指标体系过于庞大,针对性不强的问题。微博作为网络舆情的主要推动媒介,基于本发明研究的微博舆情指标体系,将能更加准确的评估社会舆情安全状态。

    一种面向网络数据的专题文档快速识别系统

    公开(公告)号:CN105843854A

    公开(公告)日:2016-08-10

    申请号:CN201610150817.6

    申请日:2016-03-16

    IPC分类号: G06F17/30

    摘要: 本发明提供一种面向网络数据的专题文档快速识别系统,通过与不同规则的高效匹配达到快速识别专题的目的。本发明主要由文档获取模块、文档结果存储模块、轮询监测模块、实时服务接口、历史服务接口、规则树构建模块、实时过滤处理模块和回溯过滤处理模块组成。本发明实现了对实时数据和历史有效数据同时进行处理的功能,能够对大量文档数据进行批量处理,能够在保证系统正常运行的前提下对处理算法进行动态热切换,能够在输入输出接口内容变动后依然可以保证系统的正常运行,弥补了目前一些文档识别系统无法随意更改、灵活性和复用性差等的缺陷,对需求变更有很强的适应性。

    一种基于云服务的软件稳定性测试远程监控系统

    公开(公告)号:CN104967667A

    公开(公告)日:2015-10-07

    申请号:CN201510278645.6

    申请日:2015-05-27

    IPC分类号: H04L29/08 H04L12/26

    摘要: 本发明公开了一种基于云服务的软件稳定性测试远程监控系统,包括:在每个loadrunner控制主机上部署一个loadrunner代理采集模块,用于采集对应loadrunner控制主机上的测试信息,并将采集的测试信息发送至局域网服务器数据库;数据处理模块,用于将局域网服务器数据库中存储的测试信息进行格式转换及压缩处理后发送至云服务器;云服务器,用于将接收到的测试信息进行解压处理,并按信息类型插入到云服务器数据库中;云服务器Web展现模块,用于提供人机交互界面,通过与所述云服务器数据库通信,响应用户的查询操作。本发明很好的解决了使用Loadrunner软件进行长时间稳定性测试远程监控困难的问题。