发明公开
- 专利标题: 基于主题相似度的网页信息获取方法、装置及系统
- 专利标题(英): Topic similarity-based webpage information obtaining method, apparatus and system
-
申请号: CN201710862871.8申请日: 2017-09-21
-
公开(公告)号: CN107704535A公开(公告)日: 2018-02-16
- 发明人: 胡勇军 , 李奕臻 , 谭钻华 , 刘洁怡
- 申请人: 广州大学
- 申请人地址: 广东省广州市番禺广州大学城外环西路230号
- 专利权人: 广州大学
- 当前专利权人: 广州大学
- 当前专利权人地址: 广东省广州市番禺广州大学城外环西路230号
- 代理机构: 广州三环专利商标代理有限公司
- 代理商 梁顺宜; 郝传鑫
- 主分类号: G06F17/30
- IPC分类号: G06F17/30 ; H04L29/08
摘要:
本发明公开了一种基于主题相似度的网页信息获取方法、装置及系统。所述基于主题相似度的网页信息获取方法包括:响应于用户交互端发送的目标主题,生成网页获取请求;将所述网页获取请求发送至目标服务器;接收所述目标服务器返回的所有所述目标网页;对每个所述目标网页进行解析,获得至少一个网页信息;根据预先设置的与所述目标主题相对应的主题相似度计算模型,对每个所述网页信息进行计算,获得每个所述网页信息的主题与所述目标主题之间的主题相似度;将所述主题相似度大于预设阈值的每个所述网页信息返回至所述用户交互端。采用本发明,能够提高所获取的网页信息的针对性和准确度。