-
公开(公告)号:CN108334495A
公开(公告)日:2018-07-27
申请号:CN201810090296.9
申请日:2018-01-30
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明提供了一种短文本相似度计算方法,包括以下步骤:S1、对训练语料进行分词,利用word2vec算法得到每个词的词向量,并组合形成词向量集合;S2、分别对待计算短文本进行分词,在词向量集合中找到待计算短文本的每个词语的词向量,并组合形成短文本向量集合;S3、计算词向量集合中每个词向量与短文本向量集合中每个词向量的余弦相似度,并得到每个词向量的最大相似度值组合得到短文本句子向量;S4、计算两个短文本句子向量间的相似度,即可计算两个短文本间的相似度。本发明还提供了一种短文本相似度计算系统。本发明的相似度算法通过将短文本句子以句子向量表示,有效的刻画了短文本句子之间的语义相似度,准确率高。
-
公开(公告)号:CN105207946B
公开(公告)日:2018-05-01
申请号:CN201510535316.5
申请日:2015-08-27
Applicant: 国家计算机网络与信息安全管理中心 , 北京赛思信安技术股份有限公司
IPC: H04L12/801 , G06F9/50
Abstract: 本发明一种网络数据包负载均衡和预解析方法,属于众核服务器的网络结构领域。包括以下步骤:一、在众核服务器下配置交换芯片;二、数据包经过外接接口进入交换芯片后,平均分给2个MPIPE;三、每个MPIPE将数据包转发到对应的TILERA CPU上,并进行预解析;四、在每个TILERA CPU上调用库函数创建数据包处理线程;五、为每个数据包处理线程分别绑定一个TILERA CPU核;六、将预解析结果分发到对应的数据包处理线程;七、各个处理线程分别通过库函数接收数据包并且得到预解析结果,保存源IP和目的IP。优点在于:使用交换芯片和MPIPE进行各个TILERA CPU之间的负载均衡,对于处理线程不需要再解析数据包,只对关注的数据包域进行处理;操作更加简便,提高数据包的处理能力。
-
公开(公告)号:CN103957154A
公开(公告)日:2014-07-30
申请号:CN201410145480.0
申请日:2014-04-11
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种网络数据包URL过滤方法,包括步骤一、在Tilera众核平台下配置Mpipe规则;步骤二、创建n个收包线程,为各个线程绑定一个用于处理数据包的CPU核,n个收包线程并行运行;步骤三、在每个收包线程中,调用Mpipe接口接收网络数据包,从网络数据包里提取URL;步骤四、在每个收包线程中,将提取的URL与URL匹配规则表进行快速匹配查找;步骤五、如果在URL匹配规则表中查找到与数据包中的URL时,则数据包匹配URL规则,然后根据程序的参数设置对匹配URL规则的网络数据包进行过滤或者转发,否则按照预先设置的默认方式处理数据包。
-
公开(公告)号:CN102111405A
公开(公告)日:2011-06-29
申请号:CN201010611550.9
申请日:2010-12-17
Applicant: 国家计算机网络与信息安全管理中心 , 曙光信息产业(北京)有限公司
Abstract: 本发明提供了一种均衡分两组编译正则表达式的方法,充分了利用片外资源,使FPGA能够两路进行匹配,采用最大割的方法来进行分组,使n条正则式生成两组状态数较为均匀的DFA,降低其空间复杂度,这样,在不降低实时性的同时,硬件空间不变,尽可能多的增加了硬件处理正则式的数量。
-
公开(公告)号:CN102073547A
公开(公告)日:2011-05-25
申请号:CN201010611827.8
申请日:2010-12-17
Applicant: 国家计算机网络与信息安全管理中心 , 曙光信息产业(北京)有限公司
IPC: G06F9/50
Abstract: 本发明提供了一种多路服务器多缓冲区并行收包的性能优化方法。驱动软件负责分配接收报文使用的缓冲区,需要在内核中为每一个线程申请一个报文缓冲区,因为在内核中申请,所以申请内存时,可以通过参数指定内存的相连的CPU号为线程编号,也就是说,为线程0申请0号CPU上的本地内存,为线程1申请1号CPU上的本地内存。接口库软件在每个线程第一次调用接收报文的API接口时,把线程绑定到与线程号相对应的CPU上。有效避免了CPU访问远地内存和线程在多个CPU上调度的开销,提高了多线程收包的效率。
-
公开(公告)号:CN108737291B
公开(公告)日:2022-04-05
申请号:CN201810438595.7
申请日:2018-05-09
Applicant: 北京建筑大学 , 国家计算机网络与信息安全管理中心
IPC: H04L47/2475 , H04L47/24 , H04L47/2408 , G06F40/284 , G06F40/30
Abstract: 本发明提供一种网络流量表示的方法及装置,方法包括:采用预设谓词及其论元,按预定事件语义学方法表示网络流量的语义,并根据网络流量的语义,定义网络流量与其它网络流量之间的关系,再根据上述关系,按照预定特征生成网络流量的集合,最后根据网络流量的集合,确定网络流量对应的通信主体的运行情况。该方法通过定义网络流量产生有关的谓词和论元,并采用预定的语义学方法对网络流量进行语义表示,根据网络流量的语义及语义关系形成网络流量的集合来表示通信主体的运行情况,该方法可以对网络流量进行准确的表示,并且表示形式较为简单,解决了现有技术的问题。
-
公开(公告)号:CN109859742B
公开(公告)日:2021-04-09
申请号:CN201910015449.8
申请日:2019-01-08
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
Abstract: 本发明提供一种说话人分段聚类方法及装置,以解决相关技术中处理短时说话人语音时,性能下降导致说话人聚类效果较差的问题。该方法包括:将待聚类语音划分为多个子语音段;通过权重联合概率线性判别分析WT‑PLDA模型对基于划分得到的各子语音段的I‑vector提取出各子语音段的特征信息W‑vector,所述WT‑PLDA模型的模型参数至少包括:均值向量、说话人子空间的投影矩阵、说话人因子的隐藏变量以及残差因子;通过概率线性判别分析PLDA根据划分后多个子语音段的所述W‑vector对该多个子语音段循环进行多次聚类,直至所述多个子语音段被聚类为两类。本发明提高了说话人的聚类效果。
-
公开(公告)号:CN109859742A
公开(公告)日:2019-06-07
申请号:CN201910015449.8
申请日:2019-01-08
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
Abstract: 本发明提供一种说话人分段聚类方法及装置,以解决相关技术中处理短时说话人语音时,性能下降导致说话人聚类效果较差的问题。该方法包括:将待聚类语音划分为多个子语音段;通过权重联合概率线性判别分析WT-PLDA模型对基于划分得到的各子语音段的I-vector提取出各子语音段的特征信息W-vector,所述WT-PLDA模型的模型参数至少包括:均值向量、说话人子空间的投影矩阵、说话人因子的隐藏变量以及残差因子;通过概率线性判别分析PLDA根据划分后多个子语音段的所述W-vector对该多个子语音段循环进行多次聚类,直至所述多个子语音段被聚类为两类。本发明提高了说话人的聚类效果。
-
公开(公告)号:CN105183858B
公开(公告)日:2018-12-21
申请号:CN201510572334.0
申请日:2015-09-10
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开一种基于消息队列的分布式数据实时去重方法,根据消息网络接口,配置若干台数据从服务器,并加入消息网络;为每一种需去重的数据配置添加原始数据信息、去重数据信息、去重服务信息;根据原始数据信息,去重数据信息及去重服务信息确定从服务器;原始数据产生者查询重服务信息,并将原始数据发送至相应的原始数据队列;数据从去重服务器查询去重服务信息,从相应的原始数据队列中消费数据,并输入至数据去重引擎,之后将去重后的数据输入到相应的去重数据队列;去重数据消费者查询去重服务信息,并从相应的去重数据队列中消费数据;主服务器根据从服务器信息更新从服务器信息。
-
公开(公告)号:CN108664622A
公开(公告)日:2018-10-16
申请号:CN201810455198.0
申请日:2018-05-14
Applicant: 国家计算机网络与信息安全管理中心 , 清华大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于二级倒排表的树状音频特征索引库建立方法,所述音频特征索引库建立方法在数字集成电路芯片中进行以下步骤:步骤1:对音频数据库中的所有特征分段进行粗量化;步骤2:对步骤1中的粗量化残差进行二级粗量化;步骤3:对粗量化残差进行乘积矢量量化;步骤4:插入倒排表。
-
-
-
-
-
-
-
-
-