-
公开(公告)号:CN106202480B
公开(公告)日:2019-06-11
申请号:CN201610565749.X
申请日:2016-07-19
Applicant: 淮阴工学院
Abstract: 本发明公开了一种基于K‑means和LDA的双向验证的网络行为习惯聚类方法,本发明利用人员上网记录中的网页属性、关键词和频数,结合K‑means算法、LDA文档主题提取模型和退火算法,先对全体人员‑标签‑频率集、人员浏览记录‑人员‑关键词集进行K‑means算法聚类和LDA文档主题提取模型生成,存储计算中间结果,之后使用退火算法将K‑means和LDA进行双向验证,计算全局最佳主题‑分类标签序列,以此为依据优化网络行为习惯聚类的结果,K‑means和LDA双向验证提高了对人员‑分类标签的敏感度,退火算法能够提高优化聚类结果的效率,进而提高聚类准确性。
-
公开(公告)号:CN106202498A
公开(公告)日:2016-12-07
申请号:CN201610572839.1
申请日:2016-07-20
Applicant: 淮阴工学院
CPC classification number: G06F16/9535 , G06F16/355 , G06F16/36 , G06F17/2715 , H04L41/14 , H04L41/142
Abstract: 本发明公开了一种基于分类语料库-关键词词频-记录关联的网络行为习惯量化方法,本发明利用搜狗实验室的互联网分类语料库(SogouT)和全体人员上网记录,结合数据关联和统计方法,先对搜狗语料库中语料-分类标签集和全体人员上网记录集进行预处理和频数统计,存储分类标签-关键词-词频集的计算中间结果,之后将人员的分类-标签集与中间结果进行数据关联和统计,以此完成对人员网络行为习惯的量化,通过多层次的数据关联,区分、降低量化过程中的不确定性,达到提高数据量化的准确性、可靠性的目的。
-
公开(公告)号:CN106202480A
公开(公告)日:2016-12-07
申请号:CN201610565749.X
申请日:2016-07-19
Applicant: 淮阴工学院
CPC classification number: G06F16/313 , G06F16/35 , G06K9/6223
Abstract: 本发明公开了一种基于K-means和LDA的双向验证的网络行为习惯聚类方法,本发明利用人员上网记录中的网页属性、关键词和频数,结合K-means算法、LDA文档主题提取模型和退火算法,先对全体人员-标签-频率集、人员浏览记录-人员-关键词集进行K-means算法聚类和LDA文档主题提取模型生成,存储计算中间结果,之后使用退火算法将K-means和LDA进行双向验证,计算全局最佳主题-分类标签序列,以此为依据优化网络行为习惯聚类的结果,K-means和LDA双向验证提高了对人员-分类标签的敏感度,退火算法能够提高优化聚类结果的效率,进而提高聚类准确性。
-
-