-
公开(公告)号:CN104462310B
公开(公告)日:2018-02-02
申请号:CN201410714574.5
申请日:2014-11-28
申请人: 北京国双科技有限公司
发明人: 何鑫
IPC分类号: G06F17/30
摘要: 本发明公开了一种网页搜索关键词的相关性检测方法及装置。该网页搜索关键词的相关性检测方法包括:确定用于执行网页搜索的第一网页搜索关键词和第二网页搜索关键词;获取统一资源定位符集合;获取第一向量,第一向量的多个元素分别为第一网页搜索关键词和多个统一资源定位符的对应关系;获取第二向量,其中,第二向量的多个元素分别为第二网页搜索关键词和多个统一资源定位符的对应关系;根据第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测。通过本发明,利用第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测,达到了提高检测网页搜索关键词之间的相关性的准确性的效果。
-
公开(公告)号:CN107577655A
公开(公告)日:2018-01-12
申请号:CN201610522357.5
申请日:2016-07-05
申请人: 北京国双科技有限公司
发明人: 何鑫
IPC分类号: G06F17/27
摘要: 本发明公开了一种名称获取方法和装置。其中,该方法包括:在目标实体词对应的目标网站中提取语料;按照预设特征从语料中提取与所述目标实体词对应的候选名称;根据预设条件在候选名称中筛选出与目标实体词对应的名称。本发明解决了现有技术中,获取实体名对应的昵称通常依赖人工来完成,导致获取昵称的效率较低且昵称的全面性不高的技术问题。
-
公开(公告)号:CN103544313B
公开(公告)日:2017-09-08
申请号:CN201310538627.8
申请日:2013-11-04
申请人: 北京国双科技有限公司
IPC分类号: G06F17/30
摘要: 本发明公开了一种用于网页推荐的数据处理方法和装置。该用于网页推荐的数据处理方法包括:获取页面访问的当前访问路径;在预先设置的路径库中查找与当前访问路径相匹配的参考访问路径;以及基于参考访问路径提示当前访问路径下一步访问的推荐网页。通过本发明,能够根据用户当前浏览网页动态进行网页推荐。
-
公开(公告)号:CN106815262A
公开(公告)日:2017-06-09
申请号:CN201510869251.8
申请日:2015-12-01
申请人: 北京国双科技有限公司
IPC分类号: G06F17/30
摘要: 本申请公开了一种裁判文书的搜索方法及装置。该方法包括:获取匹配词集合,其中,匹配词集合中包含搜索查询文本中的各个搜索关键词和搜索关键词的近义词,匹配词集合中的每个元素为一个匹配词;根据匹配词集合进行搜索匹配,得到目标裁判文书和匹配序列,其中,匹配序列是匹配词集合匹配到目标裁判文书后,由与目标裁判文书匹配的匹配词组成的序列;以及根据匹配序列确定目标裁判文书的相关性。通过本申请,解决了相关技术中搜索到的目标裁判文书的相关性不明确的问题。
-
公开(公告)号:CN106815244A
公开(公告)日:2017-06-09
申请号:CN201510860394.2
申请日:2015-11-30
申请人: 北京国双科技有限公司
摘要: 本申请公开了一种文本向量表示方法及装置。该方法包括:获取测试文本;对测试文本进行特征化处理,得到多个文本特征表示的目标文本;利用预存的特征主题关系矩阵处理目标文本,得到目标文本的主题分布,其中,主题分布包括目标文本的目标主题与目标主题对应的比例;利用预存的特征嵌入向量集合对描述目标主题的文本特征进行扩展,得到目标主题特征集合,并根据目标主题特征集合得到表示目标主题的向量;以及对主题分布和表示目标主题的向量进行计算处理,得到表示测试文本的向量。通过本申请,解决了相关技术中的文本向量表示方法对文本包含的语义信息的表达能力较弱的问题。
-
公开(公告)号:CN106708816A
公开(公告)日:2017-05-24
申请号:CN201510419835.5
申请日:2015-07-16
申请人: 北京国双科技有限公司
IPC分类号: G06F17/30
摘要: 本发明公开了一种网页解析中网页正文重复内容的处理方法及装置。该方法包括:确定待处理文本;获取多个语句频次,其中,多个语句频次分别为多个基本语句在待处理文本中出现的次数;获取多个频次次数,其中,多个语句频次中出现次数相同的语句频次为同一计数频次,每个计数频次在多个语句频次中出现的次数为一个频次次数;获取多个待处理语句的信息,其中,多个待处理语句的信息分别为多个频次次数对应基本语句的信息;以及根据多个待处理语句的信息对网页正文中的重复内容进行过滤处理。通过本发明,解决了相关技术中由于网页页面解析中网页正文存在重复内容影响网页分析结果的问题。
-
公开(公告)号:CN103544325B
公开(公告)日:2017-03-15
申请号:CN201310557775.4
申请日:2013-11-11
申请人: 北京国双科技有限公司
IPC分类号: G06F17/30
摘要: 本发明公开了一种用于网页页面点击分布的数据处理方法和装置。该用于网页页面点击分布的数据处理方法包括:获取被监测网页页面的坐标系;通过坐标系确定目标区域,其中,目标区域包括整个被监测的网页页面和分割被监测的网页页面得到的被监测的网页页面子区域;通过坐标系记录确定的目标区域的点击量;以及根据记录的所述点击量计算所述目标区域内的点击均衡度。通过本发明,解决了相关技术中无法对点击分布状态进行定量分析的问题,进而达到了通过目标区域内的点击均衡度对点击分布状态进行定量分析的效果。
-
公开(公告)号:CN106407175A
公开(公告)日:2017-02-15
申请号:CN201510463437.3
申请日:2015-07-31
申请人: 北京国双科技有限公司
发明人: 何鑫
IPC分类号: G06F17/27
摘要: 本发明公开了一种新词发现中字符串的处理方法及装置。该方法包括:确定待处理文本,其中,待处理文本包括至少一个成词字符串和至少一个候选字符串,成词字符串是待处理文本中用于组成新词的字符串,候选字符串是待处理文本中用于组成候选新词的字符串;获取第一位置数据和第二位置数据的从属关系,其中,第一位置数据为用于表示成词字符串在待处理文本中位置的数据,第二位置数据为用于表示候选字符串在待处理文本中位置的数据;以及根据第一位置数据和第二位置数据的从属关系对待处理文本中候选字符串进行过滤处理。通过本发明,解决了相关技术新词发现任务中由于存在无效的候选字符串影响新词发现准确率的问题。
-
公开(公告)号:CN106372038A
公开(公告)日:2017-02-01
申请号:CN201510438374.6
申请日:2015-07-23
申请人: 北京国双科技有限公司
IPC分类号: G06F17/22
摘要: 本申请公开了一种关键词的抽取方法及装置。其中,该方法包括:获取待处理文本,其中,待处理文本包括多个待处理语句;对待处理文本执行候选关键词抽取,得到候选关键词;分别获取候选关键词在多个待处理语句中的位置信息;以及根据候选关键词在多个待处理语句中的位置信息,对多个待处理语句执行目标关键词抽取,得到目标关键词。本申请解决了现有技术中关键词抽取方法的抽取结果存在不一致的技术问题。
-
公开(公告)号:CN106354730A
公开(公告)日:2017-01-25
申请号:CN201510419890.4
申请日:2015-07-16
申请人: 北京国双科技有限公司
IPC分类号: G06F17/30
摘要: 本发明公开了一种网页解析中网页正文重复内容的识别方法及装置。该方法包括:获取待处理文本,其中,待处理文本为网页页面解析中网页正文的文本;按照第一预设条件将待处理文本分割为多个分割语句;确定多个分割语句中的多个待处理语句,其中,多个分割语句中内容相同的语句为同一个待处理语句;获取多个第一频率,其中,多个第一频率分别为多个待处理语句在待处理文本中出现的频率;以及根据多个第一频率识别网页解析中网页正文的重复内容。通过本发明,解决了相关技术中网页页面解析过程中无法识别网页正文是否含有重复内容的问题。
-
-
-
-
-
-
-
-
-