-
公开(公告)号:CN106919552A
公开(公告)日:2017-07-04
申请号:CN201511001316.3
申请日:2015-12-28
申请人: 北京国双科技有限公司
摘要: 本申请公开了一种热词的处理方法及装置。其中,该方法包括:获取各个话题的热词,得到多个热词;计算每个热词在话题集合中的熵值,其中,话题集合为各个话题的集合,熵值用于表征热词的特征程度;从多个热词中筛选出熵值大于第一预设阈值的热词,得到第一目标热词;在各个话题的热词中删除第一目标热词。本申请解决了现有技术中由于采用人工方式删除特征程度较低的热词,导致效率低的技术问题。
-
公开(公告)号:CN106874165A
公开(公告)日:2017-06-20
申请号:CN201510922690.0
申请日:2015-12-14
申请人: 北京国双科技有限公司
IPC分类号: G06F11/34
摘要: 本申请公开了一种网页检测方法和装置。其中,该方法包括:从目标网站中检测出在预设时间段内更新的目标网页;对目标网页的访问数据进行解析,得到目标网页的访问参数,访问参数用于反映目标网页被访问的情况;判断访问参数是否满足预设条件;以及在判断出访问参数满足预设条件时,确定目标网页为有效更新的网页。本申请解决了现有技术中无法对网页更新的效果进行评价的技术问题。
-
公开(公告)号:CN106776609A
公开(公告)日:2017-05-31
申请号:CN201510809659.6
申请日:2015-11-19
申请人: 北京国双科技有限公司
IPC分类号: G06F17/30
摘要: 本发明公开了一种网站转载数量的统计方法及装置。其中,该方法包括:利用爬虫爬取原创文章的转载体,得到原创文章的第一网站转载结果,其中,原创文章为在目标网站上首发的文章;获取原创文章的属性信息,其中,属性信息包括标题信息和/或关键词信息;根据获取的属性信息利用搜索引擎搜索原创文章的转载体,得到原创文章的第二网站转载结果;合并原创文章的第一网站转载结果及第二网站转载结果。本发明解决了相关技术中由于转载遗漏造成的网站转载情况统计不准确的技术问题。
-
公开(公告)号:CN106611022A
公开(公告)日:2017-05-03
申请号:CN201510708722.7
申请日:2015-10-27
申请人: 北京国双科技有限公司
发明人: 李新国
IPC分类号: G06F17/30
摘要: 本申请公开了一种提高网站站内搜索效率的方法和装置。其中,该方法包括:从访问目标网站的访问日志中,提取表示目标网站的站内搜索结果页的统一资源定位符URL;根据目标网站的站内搜索结果页的URL,确定用于匹配目标网站的站内搜索结果页的匹配式;从访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面;利用匹配式对第一搜索结果页的URL进行匹配;以及在匹配式与第一搜索结果页的URL匹配成功的情况下,关联第二关键词和第一目标页面。本申请解决了现有技术中用户的搜索效率比较低的技术问题。
-
公开(公告)号:CN106610887A
公开(公告)日:2017-05-03
申请号:CN201510703022.9
申请日:2015-10-26
申请人: 北京国双科技有限公司
IPC分类号: G06F11/34
摘要: 本申请公开了一种网页加载速度的确定方法和装置。其中,该方法包括:对目标网站的访问数据进行解析,以获取在同一会话中同一来源访问同一网页超过预设访问次数的访问数据,从获取的访问数据中提取在同一会话中同一来源在同一网页的停留时间,根据停留时间确定访问的网页是否为加载速度慢的网页。本申请解决了对加载速度慢的网页判断不准确的技术问题。
-
公开(公告)号:CN106598979A
公开(公告)日:2017-04-26
申请号:CN201510672765.4
申请日:2015-10-15
申请人: 北京国双科技有限公司
发明人: 李新国
IPC分类号: G06F17/30
CPC分类号: G06F16/258 , G06F16/24568
摘要: 本申请公开了一种数据写入方法和装置。其中,该方法包括:获取待写入目标数据库的数据;将数据转化为目标数据库支持的标准输入流;以及利用预先建立的标准输入流通道将转化后的标准输入流写入到目标数据库。本申请解决了没有批量数据写入接口的数据库在进行批量数据写入时速度慢的技术问题。
-
公开(公告)号:CN106547777A
公开(公告)日:2017-03-29
申请号:CN201510605181.5
申请日:2015-09-21
申请人: 北京国双科技有限公司
发明人: 李新国
IPC分类号: G06F17/30
CPC分类号: G06F16/955 , G06F16/951
摘要: 本发明公开了一种文章转载量的统计方法及装置。其中,该方法包括:获取目标网站所发布的文章的第一哈希值和其他网站所转载的文章的第二哈希值;根据获取的第一哈希值和第二哈希值判断其他网站所转载的文章是否为目标网站所发布的文章的转载文章;在判断结果为是时,统计目标网站所发布的文章的转载量。本发明解决了由于搜索引擎的搜索结果列表可能会掺杂非常多的需要人工识别才能剔除的不相关的网站内容,或者可能会遗漏一些根本没有被搜索引擎收录的网站内容而造成的统计结果的准确度低的技术问题。
-
-
-
-
-
-