-
公开(公告)号:CN105488092B
公开(公告)日:2018-05-22
申请号:CN201510408490.3
申请日:2015-07-13
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明涉及一种时间敏感和自适应的子话题在线检测方法及系统。该方法包括:1)对文档流中的每篇文档进行向量化表示;2)对文档进行增量式聚类,并根据随时间衰减的文档权重调整子话题的中心权重;3)当聚类产生的子话题数量或者某个子话题权重占比满足阈值条件,或者子话题满足长尾检测条件时,进行子话题间的合并或者删除无意义的子话题;4)根据每个新子话题的权重已及其内在的文档分布,对新子话题生成摘要并输出展示。该系统包括文档表示模块、增量式聚类模块、新子话题发现模块、摘要生成模块。本发明中历史文档权重随时间衰减,并且基于阈值判断和长尾检测进行子话题数量和内容的动态更新,能够有效提高子话题检测的效率。
-
公开(公告)号:CN105488092A
公开(公告)日:2016-04-13
申请号:CN201510408490.3
申请日:2015-07-13
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
CPC classification number: G06F17/30864 , G06F17/277 , G06K9/6221 , G06Q50/01
Abstract: 本发明涉及一种时间敏感和自适应的子话题在线检测方法及系统。该方法包括:1)对文档流中的每篇文档进行向量化表示;2)对文档进行增量式聚类,并根据随时间衰减的文档权重调整子话题的中心权重;3)当聚类产生的子话题数量或者某个子话题权重占比满足阈值条件,或者子话题满足长尾检测条件时,进行子话题间的合并或者删除无意义的子话题;4)根据每个新子话题的权重已及其内在的文档分布,对新子话题生成摘要并输出展示。该系统包括文档表示模块、增量式聚类模块、新子话题发现模块、摘要生成模块。本发明中历史文档权重随时间衰减,并且基于阈值判断和长尾检测进行子话题数量和内容的动态更新,能够有效提高子话题检测的效率。
-
公开(公告)号:CN109213858B
公开(公告)日:2021-07-27
申请号:CN201710463010.2
申请日:2017-06-19
Applicant: 中国科学院信息工程研究所
IPC: G06F16/35 , G06F16/9536 , G06Q50/00 , H04L29/08
Abstract: 本发明提供一种网络水军的自动识别方法及系统,该方法步骤包括:1)采集社交网络中认证账号的消息信息以及每条消息下的评论信息;2)监测上述每条消息下的每条评论信息是否被删除,若是则读取该评论信息对应账号的历史被删评论数;3)若上述账号的历史被删评论数满足预设条件,则该账号为网络水军。该方法及系统不仅免去了人工标注工作及模型训练,而且能够快速有效的识别社交网络中的网络水军,即当一个账号的评论信息的历史被删评论数满足预设条件,则判定该账号为网络水军。同时该方法及系统适用于多个社交网络,并且能够跨平台运行。
-
公开(公告)号:CN110519219B
公开(公告)日:2020-05-22
申请号:CN201910610724.0
申请日:2019-07-08
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于格的口令认证密钥交换方法及系统。本发明通过使用错误协调机制AKC,当两个参与方交换完信息seed,yC和yS,并根据这些信息分别计算出两个近似的值σC和σS时,可以从中协调出相同的协调值,用于后续的验证和会话密钥的派生。AKC生成的信号值独立于协调值,且协调值均匀分布,即使敌手获取到信号值,也无法从中推断出协调值的信息,保证了方案的安全性。本发明大大提高了服务器的响应效率,使方案能更适用于大量客户端同时连接服务器的高并发情况。
-
公开(公告)号:CN106909621B
公开(公告)日:2020-02-11
申请号:CN201710035078.0
申请日:2017-01-17
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种提速的基于IPC编码的查询处理方法。该方法把IPC编码下的索引文件视为树形的跳表文件,实现快读略过子树的算法;在处理布尔的求交查询时,根据链表的单调性判断是否略过(skip)某些子树,略过(skip)操作可节省大量时间从而提高线上布尔查询处理速度;在处理排序查询时,使用常见的TAAT处理方式与continue机制,根据ID列表的求交结果的位置可以快速取出对应的频率的索引文件的对应的值,通过略过所有不必要访问的子树的手段提高线上排序查询的处理速度。本发明根据IPC编码的特点优化了查询速度(包括布尔查询与排序查询),优化了检索系统的用户体验。
-
公开(公告)号:CN109818743A
公开(公告)日:2019-05-28
申请号:CN201910067468.5
申请日:2019-01-24
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种椭圆曲线公钥文本化传递方法及系统。本方法为:1)对公钥P进行压缩,得到压缩后的公钥P’;2)选取2k个汉字组成数组C,根据公钥P’的长度确定编码公钥P所需汉字个数n;3)设置一保留位OP,然后根据该公钥P’与该保留位OP生成一比特串M;4)将比特串M以每块k位按序拆分为n块,对于每一块中的k位比特串,将其转化为十进制数i,取出数组C中第i个字符C[i]表示该块数据,于是依次将代表n块数据的n个字符拼接后形成新的字符串S;5)将该字符串S与设定的附加信息拼接为字符串L分享给目标接收端。本发明提供了一种对用户友好的、简单易用的密钥传输方法,为使用公钥密码保密通信奠定基础。
-
公开(公告)号:CN108073677A
公开(公告)日:2018-05-25
申请号:CN201711063644.5
申请日:2017-11-02
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于人工智能的多级文本多标签分类方法及系统。该方法包括:1)利用神经网络构建多级文本多标签分类模型,并根据该模型得到训练文本的文本类别预测结果;2)根据训练文本中已有的文本类别标注信息与步骤1)得到的训练文本的文本类别预测结果,对多级文本多标签分类模型的参数进行学习,得到参数确定的多级文本多标签分类模型;3)利用参数确定的多级文本多标签分类模型对待分类文本进行分类。本发明只通过文档级的标注信息来推断组成文本的标签,可以很好的应用于组成文本标签难以收集的场景;相对于传统多示例学习方法,本发明引入最少假设,能够更好地拟合实际数据;本发明具有良好的可扩展性。
-
公开(公告)号:CN105049288B
公开(公告)日:2017-10-24
申请号:CN201510452306.5
申请日:2015-07-28
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于PPPoE网络接入的高集成度网络采集系统及方法。该系统包括一采集服务器,采用支持PPPoE网络接入、支持多用户路由功能的Linux操作系统,并设有如下模块:采集模块,用于获取采集任务,发起HTTP请求,以及接收并处理远端服务器返回的数据;拨号断开模块,用于断开PPPoE线路;拨号连接模块,用于PPPoE线路的拨号连接并配置网络路由;拨号管理模块,用于管理多条PPPoE线路接入并执行PPPoE线路的断线、连接操作;IP管理模块,用于对采集使用的IP进行管理,实现IP注册和IP查询。本发明能够有效突破IP限制、低成本地增加带宽,从而提高互联网数据采集效率。
-
公开(公告)号:CN105049288A
公开(公告)日:2015-11-11
申请号:CN201510452306.5
申请日:2015-07-28
Applicant: 中国科学院信息工程研究所
CPC classification number: H04L43/04 , H04L12/2859 , H04L43/50
Abstract: 本发明涉及一种基于PPPoE网络接入的高集成度网络采集系统及方法。该系统包括一采集服务器,采用支持PPPoE网络接入、支持多用户路由功能的Linux操作系统,并设有如下模块:采集模块,用于获取采集任务,发起HTTP请求,以及接收并处理远端服务器返回的数据;拨号断开模块,用于断开PPPoE线路;拨号连接模块,用于PPPoE线路的拨号连接并配置网络路由;拨号管理模块,用于管理多条PPPoE线路接入并执行PPPoE线路的断线、连接操作;IP管理模块,用于对采集使用的IP进行管理,实现IP注册和IP查询。本发明能够有效突破IP限制、低成本地增加带宽,从而提高互联网数据采集效率。
-
公开(公告)号:CN110555146A
公开(公告)日:2019-12-10
申请号:CN201810270472.7
申请日:2018-03-29
Applicant: 中国科学院信息工程研究所
IPC: G06F16/951 , H04L29/08 , H04L29/12
Abstract: 本发明提供一种网络爬虫伪装数据的生成方法,其步骤包括:从浏览器的用户代理useragent字串库中选择一useragent字串,从代理IP资源池中获取一代理IP;利用所述useragent字串和所代理IP访问目标网站,根据cookie获取策略,获取cookie信息并存储于cookie资源池;将所述cookie信息与所述useragent字串、所述代理IP、多个同城代理IP、referer信息关联存储,并打包成伪装数据;根据调度策略将所述伪装数据供外部爬虫程序使用。本发明还提供一种网络爬虫伪装数据的生成系统。
-
-
-
-
-
-
-
-
-