短文本相似度计算方法及系统

    公开(公告)号:CN108334495A

    公开(公告)日:2018-07-27

    申请号:CN201810090296.9

    申请日:2018-01-30

    Abstract: 本发明提供了一种短文本相似度计算方法,包括以下步骤:S1、对训练语料进行分词,利用word2vec算法得到每个词的词向量,并组合形成词向量集合;S2、分别对待计算短文本进行分词,在词向量集合中找到待计算短文本的每个词语的词向量,并组合形成短文本向量集合;S3、计算词向量集合中每个词向量与短文本向量集合中每个词向量的余弦相似度,并得到每个词向量的最大相似度值组合得到短文本句子向量;S4、计算两个短文本句子向量间的相似度,即可计算两个短文本间的相似度。本发明还提供了一种短文本相似度计算系统。本发明的相似度算法通过将短文本句子以句子向量表示,有效的刻画了短文本句子之间的语义相似度,准确率高。

    网络数据包URL过滤方法
    23.
    发明公开

    公开(公告)号:CN103957154A

    公开(公告)日:2014-07-30

    申请号:CN201410145480.0

    申请日:2014-04-11

    Abstract: 本发明公开了一种网络数据包URL过滤方法,包括步骤一、在Tilera众核平台下配置Mpipe规则;步骤二、创建n个收包线程,为各个线程绑定一个用于处理数据包的CPU核,n个收包线程并行运行;步骤三、在每个收包线程中,调用Mpipe接口接收网络数据包,从网络数据包里提取URL;步骤四、在每个收包线程中,将提取的URL与URL匹配规则表进行快速匹配查找;步骤五、如果在URL匹配规则表中查找到与数据包中的URL时,则数据包匹配URL规则,然后根据程序的参数设置对匹配URL规则的网络数据包进行过滤或者转发,否则按照预先设置的默认方式处理数据包。

    一种网络流量表示的方法及装置

    公开(公告)号:CN108737291B

    公开(公告)日:2022-04-05

    申请号:CN201810438595.7

    申请日:2018-05-09

    Abstract: 本发明提供一种网络流量表示的方法及装置,方法包括:采用预设谓词及其论元,按预定事件语义学方法表示网络流量的语义,并根据网络流量的语义,定义网络流量与其它网络流量之间的关系,再根据上述关系,按照预定特征生成网络流量的集合,最后根据网络流量的集合,确定网络流量对应的通信主体的运行情况。该方法通过定义网络流量产生有关的谓词和论元,并采用预定的语义学方法对网络流量进行语义表示,根据网络流量的语义及语义关系形成网络流量的集合来表示通信主体的运行情况,该方法可以对网络流量进行准确的表示,并且表示形式较为简单,解决了现有技术的问题。

    一种基于消息队列的分布式数据实时去重方法

    公开(公告)号:CN105183858B

    公开(公告)日:2018-12-21

    申请号:CN201510572334.0

    申请日:2015-09-10

    Abstract: 本发明公开一种基于消息队列的分布式数据实时去重方法,根据消息网络接口,配置若干台数据从服务器,并加入消息网络;为每一种需去重的数据配置添加原始数据信息、去重数据信息、去重服务信息;根据原始数据信息,去重数据信息及去重服务信息确定从服务器;原始数据产生者查询重服务信息,并将原始数据发送至相应的原始数据队列;数据从去重服务器查询去重服务信息,从相应的原始数据队列中消费数据,并输入至数据去重引擎,之后将去重后的数据输入到相应的去重数据队列;去重数据消费者查询去重服务信息,并从相应的去重数据队列中消费数据;主服务器根据从服务器信息更新从服务器信息。

Patent Agency Ranking