-
公开(公告)号:CN106484815B
公开(公告)日:2019-04-12
申请号:CN201610849786.3
申请日:2016-09-26
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F16/2453 , G06F16/22 , G06F16/2452
Abstract: 本发明提供了一种基于海量数据类SQL检索场景的自动识别优化方法,属于海量数据统计分析领域。本发明通过五方面来进行优化:引入lucene作为可选存储介质;对每个数据文件的检索字段增加bloomfilter索引(bf索引);对不同检索场景的划分及最优存储介质的选择;在进行lucene检索场景时,将类SQL语句转换为lucene语句;对lucene存储介质和bf索引添加有效性的会话级设置。在检索时,首先判定bf索引会话级的有效性,通过bf索引缩小待检索数据文件列表,再判定lucene存储介质的会话级有效性。本发明有效降低了海量数据检索时集群的资源消耗,大幅度提升了海量数据的检索性能。
-
公开(公告)号:CN106708926A
公开(公告)日:2017-05-24
申请号:CN201611001399.0
申请日:2016-11-14
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
Abstract: 本发明提出一种支持海量长文本数据分类的分析模型的实现方法,属于大数据文本分析技术领域。本发明采用HanLP分词工具中的标准分词并采用改进的CHI算法,一方面有效降低文本分类时每篇文章的词向量空间的维度,降低文本分类计算的时间复杂度,提升算法效率,满足大数据背景下海量长文本分类时的性能需求;同时最大程度低减少由于降低向量空间维度数而造成分类准确性降低。采用TFIDF算法能够有效消除了文本与向量之间的屏障,最后采用朴素贝叶斯分类算法,能够准确的将文本进行较好的训练,实现长文本的准确的分类。本发明能有效地解决在大数据环境下长文本分类的性能指标和准确性指标的矛盾性问题,具有广泛的应用前景。
-
公开(公告)号:CN103916316A
公开(公告)日:2014-07-09
申请号:CN201410145478.3
申请日:2014-04-11
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了网络数据包线速捕获方法,具体包括以下步骤:步骤一、在Tilera众核平台下配置Mpipe规则;步骤二、创建n个收包线程,为各个线程绑定一个用于处理数据包的CPU核,n个收包线程并行运行;步骤三、在每个收包线程中,调用Mpipe接口接收网络数据包,当CPU核接收到数据包,把数据包转变为PCAP文件格式,根据数据包的序列号获取数据包保存在PCAP文件内存的首地址,根据首地址存取数据包;步骤四、在每个收包线程中,当CPU核接收到数据包,修改数据包的描述符,然后调用Mpipe接口转发数据包;步骤五、在每个收包线程中,判断是否完成处理(完成处理指不进行后续数据包的处理),均完成后,结束处理,否则,返回步骤三。本发明大大提高了数据包线速捕获的效率。
-
公开(公告)号:CN106649462B
公开(公告)日:2019-11-08
申请号:CN201610849788.2
申请日:2016-09-26
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
Abstract: 本发明提供了一种针对海量数据全文检索场景的实现方法,属于海量数据全文检索领域。本发明将Lucene引入检索引擎,对集群中已经存在的数据文件建立Lucene索引文件。在每个存储Lucene索引文件的节点上,设置有一个守护进程对该节点的Lucene索引文件进行维护。本发明优化协调器对fragment的调度机制,对每个执行节点进行计数判断,调整每个fragment的执行位置,以均衡节点资源。本发明还优化全文读取引擎机制,优先采用Lucene进行检索,当出现问题时调用RCFile检索,以保证检索的持续性和正确性。本发明提高了检索性能,可更加合理地利用集群的资源。
-
公开(公告)号:CN106528536A
公开(公告)日:2017-03-22
申请号:CN201611001691.2
申请日:2016-11-14
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F17/27
CPC classification number: G06F17/2765 , G06F17/2705
Abstract: 本发明公开一种基于词典与文法分析的多语种分词方法,可以实现中、日、韩、粤语等混合文本高效准确的分词处理,并且对于不同时段、不同专业的词可以实现灵活的词库扩展,有效更新词库信息,实现准确、高效的多语种语言文本分词;通过内嵌中日韩粤等语系子分词器、中文量子分词器和西方语系分词器,可以实现每类语种文本判断的准确分词;通过内置的语言片段编码识别机制字段对待分词文本片段进行切分,切分后的每种文本片段对应于一种语系,并使用相应的子分词器进行分词;通过文法分析可以实现西方屈折语的分词、中、日、韩、粤语的smart模式分词,可以处理含有阿拉伯数字信息的文本;同时,本发明还可以实现多种语言混合的文本分词,脱离了分词工具只能对单一语种、个别几个语种分词的局限性,保证文本分词的安全性、准确性、高效性、灵活性、普适性。通过本发明的提
-
公开(公告)号:CN106528535A
公开(公告)日:2017-03-22
申请号:CN201611001398.6
申请日:2016-11-14
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F17/27
CPC classification number: G06F17/275
Abstract: 本发明提供了一种基于编码和机器学习的多语种识别方法,是计算机对自然语言的处理技术。本方法分别通过机器学习单元和编码识别单元对文本进行语种识别,编码识别时还统计各语种的单词量,当机器学习单元的识别结果在编码识别单元的判定区间内,且二者识别的语言一致时,输出单一识别语言,当编码识别单元识别到多种语言时,进行混合语言规则判断,若第二语言在文本中的单词量比例达到设定比例,则判定文本为混合语言。本发明对长文本可先作随机采样再判定,以提高识别效率。本发明能够准确、高效地实现中文简繁体、日、法、英等99种语言的语种识别,同时支持混合语种文本识别,在海量数据分析以及舆情监控中具有广泛的应用前景。
-
公开(公告)号:CN105207946A
公开(公告)日:2015-12-30
申请号:CN201510535316.5
申请日:2015-08-27
Applicant: 国家计算机网络与信息安全管理中心 , 北京赛思信安技术股份有限公司
IPC: H04L12/801 , G06F9/50
Abstract: 本发明一种网络数据包负载均衡和预解析方法,属于众核服务器的网络结构领域。包括以下步骤:一、在众核服务器下配置交换芯片;二、数据包经过外接接口进入交换芯片后,平均分给2个MPIPE;三、每个MPIPE将数据包转发到对应的TILERA CPU上,并进行预解析;四、在每个TILERA CPU上调用库函数创建数据包处理线程;五、为每个数据包处理线程分别绑定一个TILERA CPU核;六、将预解析结果分发到对应的数据包处理线程;七、各个处理线程分别通过库函数接收数据包并且得到预解析结果,保存源IP和目的IP。优点在于:使用交换芯片和MPIPE进行各个TILERA CPU之间的负载均衡,对于处理线程不需要再解析数据包,只对关注的数据包域进行处理;操作更加简便,提高数据包的处理能力。
-
公开(公告)号:CN103957154B
公开(公告)日:2017-12-05
申请号:CN201410145480.0
申请日:2014-04-11
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种网络数据包URL过滤方法,包括步骤一、在Tilera众核平台下配置Mpipe规则;步骤二、创建n个收包线程,为各个线程绑定一个用于处理数据包的CPU核,n个收包线程并行运行;步骤三、在每个收包线程中,调用Mpipe接口接收网络数据包,从网络数据包里提取URL;步骤四、在每个收包线程中,将提取的URL与URL匹配规则表进行快速匹配查找;步骤五、如果在URL匹配规则表中查找到与数据包中的URL时,则数据包匹配URL规则,然后根据程序的参数设置对匹配URL规则的网络数据包进行过滤或者转发,否则按照预先设置的默认方式处理数据包。
-
公开(公告)号:CN106649462A
公开(公告)日:2017-05-10
申请号:CN201610849788.2
申请日:2016-09-26
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明提供了一种针对海量数据全文检索场景的实现方法,属于海量数据全文检索领域。本发明将Lucene引入检索引擎,对集群中已经存在的数据文件建立Lucene索引文件。在每个存储Lucene索引文件的节点上,设置有一个守护进程对该节点的Lucene索引文件进行维护。本发明优化协调器对fragment的调度机制,对每个执行节点进行计数判断,调整每个fragment的执行位置,以均衡节点资源。本发明还优化全文读取引擎机制,优先采用Lucene进行检索,当出现问题时调用RCFile检索,以保证检索的持续性和正确性。本发明提高了检索性能,可更加合理地利用集群的资源。
-
公开(公告)号:CN106446168A
公开(公告)日:2017-02-22
申请号:CN201610849787.8
申请日:2016-09-26
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种面向分布式数据仓库的高效加载客户端实现方法,属于信息处理领域;具体为:首先,初始化系统启动参数;加载器管理模块为每个线程各申请一个加载器;每个线程各创建一个数据解析模块,对客户端数据进行解析并传输给加载器;每个加载器分别调用数据校验模块进行检验;然后,将检验后的字段数据缓存到数据缓存模块,进行管理并传输给数据传输模块;通过分布式节点监听模块获取每个分布式数据仓库的监听状态,并发送给数据传输模块;最后,数据传输模块将收到的缓存数据发送给健康的分布式数据仓库。本发明提升了整个分布式数据仓库的使用效率和数据加载效率,符合目前的应用需求,具有广阔的应用前景。
-
-
-
-
-
-
-
-
-