一种基于编码和机器学习的多语种识别方法

    公开(公告)号:CN106528535A

    公开(公告)日:2017-03-22

    申请号:CN201611001398.6

    申请日:2016-11-14

    IPC分类号: G06F17/27

    CPC分类号: G06F17/275

    摘要: 本发明提供了一种基于编码和机器学习的多语种识别方法,是计算机对自然语言的处理技术。本方法分别通过机器学习单元和编码识别单元对文本进行语种识别,编码识别时还统计各语种的单词量,当机器学习单元的识别结果在编码识别单元的判定区间内,且二者识别的语言一致时,输出单一识别语言,当编码识别单元识别到多种语言时,进行混合语言规则判断,若第二语言在文本中的单词量比例达到设定比例,则判定文本为混合语言。本发明对长文本可先作随机采样再判定,以提高识别效率。本发明能够准确、高效地实现中文简繁体、日、法、英等99种语言的语种识别,同时支持混合语种文本识别,在海量数据分析以及舆情监控中具有广泛的应用前景。

    一种Hive平台的用户安全管理系统及应用

    公开(公告)号:CN105656903A

    公开(公告)日:2016-06-08

    申请号:CN201610027935.8

    申请日:2016-01-15

    IPC分类号: H04L29/06

    CPC分类号: H04L63/02 H04L63/08 H04L63/20

    摘要: 本发明公开了一种面向Hive平台的用户安全管理系统,它还包括有访问控制与安全审计单元、数据查询单元以及身份认证单元;所述的访问控制与安全审计单元包括安全审计服务器和访问控制服务器,所述的数据查询单元包括HDFS服务器、NameNode服务器和Hive服务器,所述的身份认证单元包括LDAP服务器。面向Hive平台的用户安全管理方法,它包括有用户注册、用户登录、用户查询和审计存储四个步骤。本发明解决了传统用户对大规模存储系统的越权访问行为,能安全有效地防止数据存储设备被偷窃导致数据泄露,防止传统存储系统遭受外部人员入侵获得隐私数据以及数据分包被非法截取的现象。

    一种数据标识方法及其对应装置

    公开(公告)号:CN104735025A

    公开(公告)日:2015-06-24

    申请号:CN201310703431.X

    申请日:2013-12-18

    IPC分类号: H04L29/06

    摘要: 本发明提供一种数据标识方法及其对应装置,其中该方法包括:将收到的数据报文的五元组第一部分内容按照预定算法进行计算,将得到的第一结果与目的端口的第一指定位置的内容进行比较,如果两者一致则根据会话表中的修改记录,将对应的原始端口更新到报文的目的端口字段中;如果两者不一致则将数据报文的五元组第二部分内容按照预定算法进行计算,将得到的第二结果填写到该报文源端口字段的第一指定位置中,将来源编号填写在该报文源端口字段的第二指定位置中,然后将修改记录写入会话表。本发明依据数据的特定标识,能有效的解决部分特定安全分析业务数据流量不能在同一服务器处理的多地对准问题。

    PCI-E零拷贝DMA数据传输方法

    公开(公告)号:CN104239249A

    公开(公告)日:2014-12-24

    申请号:CN201410472223.8

    申请日:2014-09-16

    IPC分类号: G06F13/28

    摘要: 本发明提供了一种PCI-E零拷贝DMA数据传输方法,属于PCI-E数据传输技术领域。本方法首先在数据源和数据目的系统中各自分配适当大小的物理内存,并分别对两个系统中分配的物理内存使用双向链表建立空闲内存池和工作内存池;在数据源系统上,用户应用程序传输数据时,从空闲内存池取得空闲内存后直接进行数据填充,数据填充完后传输给数据目的系统;在数据目的系统,将接收的数据存入工作内存池,用户应用程序使用相应的API接口从工作内存池中取得数据进行使用;使用完毕后将相应的内存归还给空闲内存池。本发明极大地减轻了CPU的压力,减少了系统调用,对于大规模小数据量的传输减轻了用户内核空间的切换,提高了系统效率。

    网络故障处理方法、装置及系统

    公开(公告)号:CN102833093A

    公开(公告)日:2012-12-19

    申请号:CN201210230413.X

    申请日:2012-07-04

    IPC分类号: H04L12/24 H04L12/26 H04L29/08

    摘要: 本发明涉及一种网络故障处理方法、装置及系统。网络故障处理方法应用于中心化拓扑结构的网络管理系统的骨干链路故障处理,包括:在管理域到中心服务器的链路出现故障时,所述管理域中预先指定的超级节点通知所述管理域中的其他主机将数据发送到该超级节点,所述超级节点为所述管理域中的主机之一;所述超级节点接收、存储并按照预设的规则处理所述其他主机发送的数据,并记录对所述数据的处理过程信息。本发明的网络故障处理方法、装置及系统,能够及时处理中心化拓扑结构的网络管理系统的链路中断、堵塞和服务器失效的故障,并使得客户端在与服务器的链路中断的情况下也可以保证网络管理策略的有效,提高了被管理系统及网络的可靠性和安全性。

    基于缓冲池的数据缓存排序在线处理方法

    公开(公告)号:CN101834801B

    公开(公告)日:2012-11-21

    申请号:CN201010177960.7

    申请日:2010-05-20

    IPC分类号: H04L12/56 H04L29/06

    摘要: 基于缓冲池的数据缓存排序在线处理方法,属于互联网领域,为了解决目前常见的多线程下载软件对于下载数据乱序和重复的节目批量并发下载,不能实现基于内存的下载数据在线缓存、排序和去重,因而无法支持实时在线的识别、检索等处理的问题。本发明将所有缓冲区组织成缓冲区池,采用多个缓冲区缓存同一节目的下载数据。在接收节目数据包后,先查询节目的下载日志,若无新数据则丢弃不做任何处理,否则:首先选择合适的节目已有缓冲区接收数据,若无合适缓冲区且允许的情况下,申请新缓冲区接收数据;然后更新下载日志;最后调用分析处理模块将该缓冲区中排好的数据取走处理。重复上述过程,直至节目下载完成,将节目分配的缓冲区释放到缓冲区池中。

    基于自适应异构多分类模型的钓鱼网站检测方法和系统

    公开(公告)号:CN108965245B

    公开(公告)日:2021-04-13

    申请号:CN201810549417.1

    申请日:2018-05-31

    IPC分类号: H04L29/06 G06K9/62

    摘要: 本发明提供了一种基于自适应异构多分类模型的钓鱼网站检测方法和系统。所述方法对多种基分类算法通过线性加成构建自适应异构多分类模型,对多分类模型进行训练,该模型输入是各基分类算法的输入,输出是样本标签,每个基分类算法从样本记录中提取相应的特征作为输入;采用机器学习算法求解模型参数,并用测试集进行测试和优化,最终得到该类钓鱼网站的检测模型。所述系统包括域名词素特征分类器、主题索引特征分类器、内容相似性特征分类器、结构样式特征分类器、视觉规则特征分类器、线性加成训练模块、集成分类器、训练数据集管理模块和检测及告警模块。本发明实现对钓鱼网站实时检测,并提高了钓鱼网站检测的准确性和稳定性。

    一种网络数据交互方法及装置

    公开(公告)号:CN107483384B

    公开(公告)日:2020-07-14

    申请号:CN201610404248.3

    申请日:2016-06-08

    IPC分类号: H04L29/06 H04L29/08

    摘要: 本发明公开了一种网络数据交互方法及装置,本发明对从网络侧获取的网络数据进行分类,并对分类后的网络数据完成相应的处理后,通过共享内存的方式与后端BT系统进行数据交互,从而解决了相关技术中大规模的动态接入的连接的管理方法效率较低的问题,提高了系统运行效率,提升了服务器的性能。

    一种面向分布式数据仓库的加载客户端实现方法

    公开(公告)号:CN106446168B

    公开(公告)日:2019-11-01

    申请号:CN201610849787.8

    申请日:2016-09-26

    IPC分类号: G06F16/25

    摘要: 本发明公开了一种面向分布式数据仓库的高效加载客户端实现方法,属于信息处理领域;具体为:首先,初始化系统启动参数;加载器管理模块为每个线程各申请一个加载器;每个线程各创建一个数据解析模块,对客户端数据进行解析并传输给加载器;每个加载器分别调用数据校验模块进行检验;然后,将检验后的字段数据缓存到数据缓存模块,进行管理并传输给数据传输模块;通过分布式节点监听模块获取每个分布式数据仓库的监听状态,并发送给数据传输模块;最后,数据传输模块将收到的缓存数据发送给健康的分布式数据仓库。本发明提升了整个分布式数据仓库的使用效率和数据加载效率,符合目前的应用需求,具有广阔的应用前景。