多核环境下基于海量日志的类似行为模式用户识别方法
摘要:
本发明公开了一种多核环境下基于海量日志的类似行为模式用户识别方法。现有的方法运算量巨大、I/O操作繁重。本发明方法首先在WEB服务器端设置单独的日志数据库,用于存放记录用户访问信息的日志数据集;其次读入日志数据集中的部分日志信息至内置多核CPU的通用计算机内存;根据多核环境下设置的线程个数,均分日志数据集,得到多个局部日志数据集,作为各线程的处理数据源;然后各线程分别搜索局部日志数据集,获取局部类似行为模式,并进行归约;最后并行归并各线程获得的局部类似行为模式集至全局类似行为模式集,获得具有类似行为模式的用户。本发明可使类似访问模式的识别过程具有较高的运行效率和加速比。
0/0