-
公开(公告)号:CN112115269A
公开(公告)日:2020-12-22
申请号:CN202011172739.2
申请日:2020-10-28
IPC分类号: G06F16/35 , G06F16/33 , G06K9/62 , G06F16/951 , G06F40/284
摘要: 本发明公开了一种基于爬虫的网页自动分类方法,涉及数据分析领域,具体包括:首先,针对待分类的网页,利用定制爬虫获取内容信息并分出关键词。然后,逐个选取各关键词,依次比对是否属于互联网关键词类别库,如果是,得到该网页所属的类别个数M;否则,将不属于任何类别库的关键词单独记录。当类别个数M值大于等于2时,基于贝叶斯多维分类模型,随机选取2个类别,迭代判定该网页属于哪个类别的概率最大,将单独记录的关键词写入该类别词库中。当M的值等于1,则直接获取该网页所属类别,将单独记录的关键词写入;反之M等于0,则该网页内容属于暂时无法识别的网页,将其放入未识别网页词库中。本发明可以有效地提升网页分类的准确率。