发明授权
- 专利标题: Web主题信息提取方法及系统
- 专利标题(英): Web topic information extraction method and system
-
申请号: CN201210235115.X申请日: 2012-07-09
-
公开(公告)号: CN102750392B公开(公告)日: 2014-07-16
- 发明人: 沈丽倩 , 韦海强 , 唐浩 , 叶小卫 , 卢会春 , 徐益光
- 申请人: 浙江省公众信息产业有限公司
- 申请人地址: 浙江省杭州市莫干山路118号
- 专利权人: 浙江省公众信息产业有限公司
- 当前专利权人: 浙江省公众信息产业有限公司
- 当前专利权人地址: 浙江省杭州市莫干山路118号
- 代理机构: 中国国际贸易促进委员会专利商标事务所
- 代理商 毛丽琴
- 主分类号: G06F17/30
- IPC分类号: G06F17/30
摘要:
本发明公开一种Web主题信息提取方法及系统。其中在Web主题信息提取方法中,通过根据指定Web页面的编码格式获得Web页面的分页链接格式,根据分页链接格式获得指定分页中的全部内容链接信息,其中内容链接信息包括内容链接地址;对于每个内容链接信息,获取内容链接地址指向的链接页面的Html源代码,分析链接页面的编码格式;根据链接页面的编码格式,提取链接页面的Web主题信息,并生成页面快照。由于可获得指定分页中全部内容链接信息相关联的Web主题信息,从而便于用户对Web信息的灵活定制,并有效避免访问时间的耗费和通信流量的损失。
公开/授权文献
- CN102750392A Web主题信息提取方法及系统 公开/授权日:2012-10-24