-
公开(公告)号:CN112069312A
公开(公告)日:2020-12-11
申请号:CN202010806716.6
申请日:2020-08-12
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F40/295 , G06F40/30 , G06F16/9535
Abstract: 本发明提供一种基于实体识别的文本分类方法,包括:对待检测文本进行切词,得到情感词与实体词,并通过一实体及情感类别已标注数据集判断实体词的情感类别;对待检测文本进行断句,通过情感词与标注情感类别的实体词在每一句子中的词性、否定词及标点符号内容,获取各句子的情感类别;依据各句子的情感类别,得到待检测文本的情感类别。本发明利用半监督学习的方式,通过协同训练加主动学习的方式,结合学习加情感规则的方式,确定指向性实体集;通过识别指定方向实体,结合情感词进行倾向性判断;生成指定类别实体集,结合情感规则,实现对文本更深层次的分析。
-
公开(公告)号:CN110580251A
公开(公告)日:2019-12-17
申请号:CN201910655594.2
申请日:2019-07-19
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/22 , G06F16/215
Abstract: 本发明涉及一种大数据环境下的群体轨迹伴随模式在线分析方法和系统。该方法包括:设置群体轨迹伴随模式的阈值参数;对群体轨迹流数据进行切片,获得当前时间片的群体位置信息集合;构建基于spark的分布式高维索引树KD-Tree;进行位置点的密度聚类,形成当前时间片的群体位置聚类快照簇集合Scs;根据当前群体轨迹伴随候选集SetAc是否为空,将Scs中的位置聚类快照簇加入SetAc中存在的伴随候选组或者新生成的轨迹伴随候选组;判断当前每个轨迹伴随候选组是否合格,如果合格则输出合格的群体轨迹伴随模式详情。本发明具有高吞吐量、实时性高、准确性高、扩展性好、高可配置性等优点。
-
公开(公告)号:CN110580251B
公开(公告)日:2023-01-17
申请号:CN201910655594.2
申请日:2019-07-19
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/22 , G06F16/215
Abstract: 本发明涉及一种大数据环境下的群体轨迹伴随模式在线分析方法和系统。该方法包括:设置群体轨迹伴随模式的阈值参数;对群体轨迹流数据进行切片,获得当前时间片的群体位置信息集合;构建基于spark的分布式高维索引树KD‑Tree;进行位置点的密度聚类,形成当前时间片的群体位置聚类快照簇集合Scs;根据当前群体轨迹伴随候选集SetAc是否为空,将Scs中的位置聚类快照簇加入SetAc中存在的伴随候选组或者新生成的轨迹伴随候选组;判断当前每个轨迹伴随候选组是否合格,如果合格则输出合格的群体轨迹伴随模式详情。本发明具有高吞吐量、实时性高、准确性高、扩展性好、高可配置性等优点。
-
公开(公告)号:CN112069312B
公开(公告)日:2023-06-20
申请号:CN202010806716.6
申请日:2020-08-12
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F40/295 , G06F40/30 , G06F16/9535
Abstract: 本发明提供一种基于实体识别的文本分类方法,包括:对待检测文本进行切词,得到情感词与实体词,并通过一实体及情感类别已标注数据集判断实体词的情感类别;对待检测文本进行断句,通过情感词与标注情感类别的实体词在每一句子中的词性、否定词及标点符号内容,获取各句子的情感类别;依据各句子的情感类别,得到待检测文本的情感类别。本发明利用半监督学习的方式,通过协同训练加主动学习的方式,结合学习加情感规则的方式,确定指向性实体集;通过识别指定方向实体,结合情感词进行倾向性判断;生成指定类别实体集,结合情感规则,实现对文本更深层次的分析。
-
公开(公告)号:CN110457315A
公开(公告)日:2019-11-15
申请号:CN201910654984.8
申请日:2019-07-19
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/22 , G06F16/215 , G06K9/62 , H04L29/08
Abstract: 本发明涉及一种基于用户轨迹数据的群体聚集模式分析方法和系统。该方法包括:1)通过用户群体轨迹数据提取用户的位置数据;2)将各个时间点同一用户的位置数据按照时间顺序整合,形成在时空上具有连续性的轨迹数据;3)根据用户的在时空上具有连续性的轨迹数据构建K-D Tree;4)基于K-D Tree对用户轨迹点进行聚类,得到多个人群的快照簇;5)根据人群的快照簇发现候选人群集合,进而根据候选人群集合发现封闭人群集合。本发明可以快速处理海量用户轨迹日志数据并进行针对对象位置的聚集模式分析,能够保证人群聚集判断的有效性和准确性。
-
公开(公告)号:CN116915651A
公开(公告)日:2023-10-20
申请号:CN202311033779.2
申请日:2023-08-16
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本申请提供一种网络设备自动化测试方法、装置、电子设备和存储介质,其中,网络设备自动化测试方法包括:初始化测试资源的配置并建立与所述测试资源的通信连接,所述测试资源包括实例化资源和基于测试环境添加的虚拟资源;基于测试用例向所述测试资源发送第一测试命令,以使所述测试资源基于所述第一测试命令携带的命令参数测试待测设备并获取携带测试结果的报文;向所述测试资源发送第二测试命令,以使所述测试资源基于所述第二测试命令的命令参数执行针对所述测试结果的验证处理并得到验证结果。本申请具有能够提高测试资源的配置灵活性等优点。
-
公开(公告)号:CN115438239A
公开(公告)日:2022-12-06
申请号:CN202110623899.2
申请日:2021-06-04
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9035 , G06F16/906
Abstract: 本发明公开一种自动化异常样本筛选的异常检测方法及装置,包括依据数据集中各数据的特征,进行数据筛选;对筛选得到的数据进行特征降维;针对特征降维后的数据进行异常检测,得到若干候选数据;对所有候选数据作聚类,得到带类别标签的异常数据。本发明利用特征筛选和特征降维方法,解决异常检测算法难以处理高维度特征的问题,并结合对异常检验算法和聚类算法,实现了对异常样本的自动化分析,在整个流程中不需要人工干预,大大减少了异常样本发现与分析过程中的人力投入。
-
公开(公告)号:CN112910832B
公开(公告)日:2022-08-30
申请号:CN202010089587.3
申请日:2020-02-11
Applicant: 国家计算机网络与信息安全管理中心 , 长安通信科技有限责任公司
Inventor: 杨云龙 , 黄亮 , 李佳 , 严寒冰 , 张良 , 云晓春 , 陈训逊 , 王博 , 周昊 , 党向磊 , 郑礼雄 , 郭三川 , 刘伟 , 王鼎华 , 吕志泉 , 高川 , 徐剑 , 李明哲
IPC: H04L9/40
Abstract: 公开了一种国际化域名欺骗攻击识别分析方法及系统。该方法可以包括:将域名转化为图片,获得图片向量;针对图片向量进行格式化,获得缩放图片向量;针对缩放图片向量进行灰度化,获得一维图片向量;针对一维图片向量进行归一化,获得归一化图片向量;根据测试集计算不同阈值情况下的准确率,以准确率最大时对应的阈值为实际应用阈值;获取归一化图片向量的直方图特征向量,计算与已知域名对应图片的相似度;根据相似度与实际应用阈值,判断域名是否为仿冒域名。本发明通过将国际化域名转化为图片,通过图片识别,分析出仿冒国际化域名,方法具有普适性,且分析成本较低。
-
公开(公告)号:CN107992474B
公开(公告)日:2021-04-27
申请号:CN201711193285.5
申请日:2017-11-24
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/295 , G06F40/284 , G06F16/2458 , G06F16/215
Abstract: 本发明涉及一种流式数据主题挖掘方法及其系统,该挖掘方法包括:对结构化数据进行筛选,得到主题数据,提取主题数据的主题实体和主题关键词,分别生成主题实体集合和主题关键词集合;提取候选新闻数据的新闻实体和新闻关键词,分别生成新闻实体集合和新闻关键词集合;分别计算得到实体相关度、关键词相关度和核心词相关度;计算候选新闻数据与主题数据的新闻主题相似度,并将新闻主题相似度大于预设阈值的候选新闻数据导入合格新闻数据集合。本发明能够从海量的实时流式数据中准确找到用户关注的特定主题的相关新闻,保证了该主题下新闻的实时性、准确性,以及该主题下新闻动态的变化过程,并对新闻内容进行了分析。
-
公开(公告)号:CN107992473B
公开(公告)日:2021-04-27
申请号:CN201711190871.4
申请日:2017-11-24
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/289 , G06F16/35
Abstract: 本发明涉及一种基于逐点互信息技术的诈骗信息特征词提取方法及系统,该提取方法包括:提取诈骗信息主题关键词,组成主题关键词集合;将信息组中的信息按是否为诈骗信息划分为正样本集合和负样本集合,并得到正样本分词集合、负样本候分词集合和候选关键词集合;根据候选关键词集合的候选关键词在信息组的正相互性PMI值和负相互性PMI值得到候选关键词在信息组的权重,将权重大于预设阈值的候选关键词记为信息组的合格关键词。本发明通过对信息组中的信息进行处理,得到候选关键词集合,计算候选关键词相对于信息的正相互性PMI值和负相互性PMI值,得到候选关键词的权重,由此判断是否为合格关键词,实现了对数据流式信息的关键词提取。
-
-
-
-
-
-
-
-
-