-
公开(公告)号:CN103853760A
公开(公告)日:2014-06-11
申请号:CN201210508772.7
申请日:2012-12-03
Applicant: 中国移动通信集团公司
IPC: G06F17/30
CPC classification number: G06F17/30864
Abstract: 本发明公开了一种网页正文内容提取方法和装置,其中,该方法包括:将待提取的网页文档解析成文档对象模型树结构,将网页对应的文档对象模型树的叶子节点组成节点集合;查找节点集合中层数最深的叶子节点在文档对象模型树中对应的父节点;将叶子节点归并到所述父节点,将具有相同父节点的叶子节点归并;若归并后的节点集合中的叶子节点满足设定条件,将叶子节点所包含的区域确定为网页正文内容所在区域;在确定的网页正文内容所在区域中去除网页标签,提取网页正文内容。本发明能够迅速有效的定位HTML页面中正文所在的区域,并将其与噪音内容分离出来,提高获取正文内容信息的效率。
-
公开(公告)号:CN103853760B
公开(公告)日:2017-05-03
申请号:CN201210508772.7
申请日:2012-12-03
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种网页正文内容提取方法和装置,其中,该方法包括:将待提取的网页文档解析成文档对象模型树结构,将网页对应的文档对象模型树的叶子节点组成节点集合;查找节点集合中层数最深的叶子节点在文档对象模型树中对应的父节点;将叶子节点归并到所述父节点,将具有相同父节点的叶子节点归并;若归并后的节点集合中的叶子节点满足设定条件,将叶子节点所包含的区域确定为网页正文内容所在区域;在确定的网页正文内容所在区域中去除网页标签,提取网页正文内容。本发明能够迅速有效的定位HTML页面中正文所在的区域,并将其与噪音内容分离出来,提高获取正文内容信息的效率。
-
公开(公告)号:CN102955804B
公开(公告)日:2016-03-02
申请号:CN201110247837.2
申请日:2011-08-25
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种网络词热度确定方法和装置:接收用户输入的网络词X,获取包括网络词X的页面的页面地址和发布时间;根据获取到的页面地址计算网络词X的地域分布参数,根据获取到的发布时间计算网络词X的时间分布参数,根据计算出的地域分布参数和时间分布参数计算网络词X的热度值,展示给用户。应用本发明所述方案,能够提高网络词热度确定结果的准确性。
-
公开(公告)号:CN102955804A
公开(公告)日:2013-03-06
申请号:CN201110247837.2
申请日:2011-08-25
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种网络词热度确定方法和装置:接收用户输入的网络词X,获取包括网络词X的页面的页面地址和发布时间;根据获取到的页面地址计算网络词X的地域分布参数,根据获取到的发布时间计算网络词X的时间分布参数,根据计算出的地域分布参数和时间分布参数计算网络词X的热度值,展示给用户。应用本发明所述方案,能够提高网络词热度确定结果的准确性。
-
-
-