提高网站站内搜索效率的方法和装置

    公开(公告)号:CN106611029B

    公开(公告)日:2020-03-03

    申请号:CN201510708859.2

    申请日:2015-10-27

    发明人: 李新国

    IPC分类号: G06F16/953 G06F16/955

    摘要: 本申请公开了一种提高网站站内搜索效率的方法和装置。其中,该方法包括:从访问目标网站的访问日志中,提取表示目标网站的站内搜索结果页的统一资源定位符URL;根据目标网站的站内搜索结果页的URL,确定用于匹配目标网站的站内搜索结果页的匹配式;从访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面;利用匹配式对第一搜索结果页的URL进行匹配;提取预设时间段内搜索次数高于第一预设数量的第二关键词;检查提取到的第二关键词是否已存储在预设关键词词典中;关联提取到的第二关键词和第一目标页面。本申请解决了现有技术中用户的搜索效率比较低的技术问题。

    爬取网页的方法及装置
    2.
    发明公开

    公开(公告)号:CN107025235A

    公开(公告)日:2017-08-08

    申请号:CN201610070457.9

    申请日:2016-02-01

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种爬取网页的方法及装置,涉及互联网技术领域,为解决现有爬取网页的方法造成资源的耗费,降低系统执行速度的问题而发明。本发明的方法包括:获取爬虫种子,所述爬虫种子为网络爬虫要爬取的网页的统一资源定位符URL;根据每个爬虫种子的优先级将所述爬虫种子注入到与其优先级对应的队列中,不同优先级对应不同队列;将对应不同优先级的队列发送给所述网络爬虫,以使得所述网络爬虫根据预设提取规则从不同队列中提取所述爬虫种子,并按照提取的爬虫种子进行网页爬取。本发明适合应用在抓取万维网中信息的过程中。

    网站数据处理方法及装置

    公开(公告)号:CN106933825A

    公开(公告)日:2017-07-07

    申请号:CN201511017078.5

    申请日:2015-12-29

    发明人: 吴茜 李新国

    IPC分类号: G06F17/30

    CPC分类号: G06F17/30873 G06F17/3089

    摘要: 本发明公开了一种网站数据处理方法,涉及网络技术领域,解决了现有获取目标网站的导航有效度效率及准确率低的问题。本发明的主要技术方案为:获取目标网站的用户访问数据;从所述用户访问数据中获取用户访问的总页面数和着陆页面数,所述着陆页面为用户访问目标网站的第一页面;根据所述总页面数和着陆页面数,确定所述目标网站的导航有效度。本发明主要用于计算目标网站的导航有效度。

    网站页面间访问路径的确定方法及装置

    公开(公告)号:CN106897196A

    公开(公告)日:2017-06-27

    申请号:CN201510955078.3

    申请日:2015-12-17

    发明人: 李新国

    IPC分类号: G06F11/34

    摘要: 本申请公开了一种网站页面间访问路径的确定方法及装置。该方法包括:获取访问日志,其中,访问日志为根据目标网站的访问信息生成的日志;根据访问日志获取网站页面的原始页面间原始访问路径;对原始页面间原始访问路径进行过滤处理,得到目标页面间原始访问路径;以及去除目标页面间原始访问路径中的环路,并根据访问日志在去除环路后的目标页面间原始访问路径中确定目标页面间目标访问路径。通过本申请,解决了相关技术中无法获知用户在网站上重要页面间的真实访问路径的问题。

    数据写入方法及装置
    5.
    发明公开

    公开(公告)号:CN106897024A

    公开(公告)日:2017-06-27

    申请号:CN201510960541.3

    申请日:2015-12-18

    发明人: 李新国

    IPC分类号: G06F3/06

    CPC分类号: G06F3/0604 G06F3/0614

    摘要: 本发明公开了一种数据写入方法及装置。其中,该方法包括:应用程序将产生的数据和用于指示存储系统写入产生的数据的写入消息发送给存储系统;应用程序将产生的数据和用于指示查询系统写入产生的数据的写入消息发送给查询系统;应用程序分别接收并根据存储系统和查询系统返回的消息确定是否放弃本次数据写入操作。本发明解决了相关技术中无法保证查询系统和存储系统中数据的一致性的技术问题。

    数据重复性校验方法及装置

    公开(公告)号:CN106649346A

    公开(公告)日:2017-05-10

    申请号:CN201510728100.0

    申请日:2015-10-30

    发明人: 李新国

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种数据重复性校验方法及装置,涉及信息技术领域,可以提高数据重复性校验的效率。所述方法包括:首先获取数据库对应的数据量信息;再根据所述数据量信息,创建布隆过滤器;然后获取所述数据库中预置字段信息对应的哈希值,并将所述哈希值保存在所述布隆过滤器中;当所述布隆过滤器中不存在待插入数据中特征字段信息对应的哈希值时,保存所述待插入数据。本发明适用于数据重复性的校验。

    词语处理方法及装置
    7.
    发明公开

    公开(公告)号:CN106569992A

    公开(公告)日:2017-04-19

    申请号:CN201510651110.9

    申请日:2015-10-09

    发明人: 张鹏霄 李新国

    IPC分类号: G06F17/27 G06F17/30

    摘要: 本申请公开了一种词语处理方法及装置。其中,该方法包括:在第一时间获取多个待展示词语,其中,多个待展示词语的关注度均大于第一预设值;分别根据多个待展示词语的关注度和出现时间计算多个待展示词语的热度;根据多个待展示词语的热度对多个待展示词语进行排序;以及展示排序靠前的第一预设数量的待展示词语。本申请解决了由于网站展示的热门词不准确、时效性差的技术问题。

    计算站内搜索有效度的方法及装置

    公开(公告)号:CN106528569A

    公开(公告)日:2017-03-22

    申请号:CN201510580437.1

    申请日:2015-09-11

    发明人: 李新国

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种计算站内搜索有效度的方法及装置,涉及互联网技术领域,为解决人工统计网站的站内搜索有效度的方式效率低的问题而发明。本发明的方法包括:获取站点的访问日志,访问日志中记录有用户访问站点的访问信息;从访问信息中提取用户访问的页面的统一资源定位符URL;从页面的URL中查找搜索结果页的URL,将搜索结果页的URL的数量确定为M,搜索结果页为用户通过站内搜索访问的网页页面,其中包含根据站内搜索条件筛选出的目标页面的页面链接;根据访问信息判断用户是否点击过页面链接,将用户点击页面链接的次数确定为N;计算N与M的比值,获得站内搜索有效度。本发明适合应用在计算网站站内搜索有效度的过程中。

    社交应用数据的筛选方法和装置

    公开(公告)号:CN106528521A

    公开(公告)日:2017-03-22

    申请号:CN201510580042.1

    申请日:2015-09-11

    发明人: 李新国

    IPC分类号: G06F17/27

    摘要: 本申请公开了一种社交应用数据的筛选方法和装置。其中,该方法包括:获取筛选阈值;根据待筛选数据的有效数据元素和无效数据元素获取待筛选数据的筛选分值;判断筛选分值是否小于筛选阈值;如果判断出筛选分值小于筛选阈值,则丢弃待筛选数据;以及如果判断出筛选分值大于等于筛选阈值,则保留待筛选数据。本申请解决了在进行社交应用的数据筛选时不准确的技术问题。

    媒体贡献的分析方法及装置

    公开(公告)号:CN109598526B

    公开(公告)日:2023-05-16

    申请号:CN201710918446.6

    申请日:2017-09-30

    发明人: 李新国 杜兴松

    IPC分类号: G06Q30/0242

    摘要: 本发明公开了一种媒体贡献的分析方法及装置,涉及网络技术领域,主要目的在于实现媒体贡献分析的功能。本发明的方法包括:获取第一用户信息及第二用户信息,其中,第一用户信息在用户访问目标广告时获取,第一用户信息中包括用户设备标识、媒体信息、访问时间以及用户操作事件;第二用户信息在用户激活目标APP时获取,第二用户信息中包括用户设备标识、操作时间以及用户操作行为;根据第二用户信息中的用户设备信息,匹配包含相同用户设备信息的第一用户信息;根据匹配到的第一用户信息,确定不同媒体所对应的用户操作事件的数量;根据不同媒体对应的用户操作事件的数量,分析不同媒体对激活APP的贡献结果。本发明用于媒体贡献的分析。