-
公开(公告)号:CN106844685B
公开(公告)日:2020-07-28
申请号:CN201710057271.4
申请日:2017-01-26
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/951 , G06F16/953 , G06F40/30
Abstract: 本申请公开了用于识别网站的方法、装置及服务器。该方法的一具体实施方式包括:获取待识别网站的网页集合;识别该网页集合中的异常网页,其中,该异常网页中的图片信息与文本信息的相关度小于相关度阈值;确定识别出的异常网页在该网页集合中的比率;根据所确定的比率,确定该待识别网站是否为垃圾网站。该实施方式提高了识别垃圾网站的效率。
-
公开(公告)号:CN109033385A
公开(公告)日:2018-12-18
申请号:CN201810848059.4
申请日:2018-07-27
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明实施例公开一种图片检索方法、装置、服务器及存储介质,其中,方法包括:从所有网页的图片中识别出多个内容相同的图片组;对每个图片组中,各图片的所有来源网页的图片相关文本进行聚合,得到每个图片组的文本描述;基于每个图片组的文本描述,为各图片组中的每个图片建立倒排索引,其中针对每一个文本描述,倒排索引中至少包含该文本描述所属的图片组中所有文本描述所对应的来源网页;根据输入的检索词和倒排索引进行图片检索。本发明实施例可实现以图片为基本单位将相关来源网页聚合后作为构建倒排索引的图片文本描述信息,减少图片索引的冗余信息,同时可精准召回跨页面命中的结果,对长检索词或多个限定词语的检索词也能精准召回。
-
公开(公告)号:CN105159938B
公开(公告)日:2018-11-30
申请号:CN201510481932.7
申请日:2015-08-03
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
CPC classification number: G06F17/30693 , G06F17/30663 , G06F17/30672
Abstract: 本申请公开了检索方法和装置。该检索方法的一具体实施方式包括:从搜索日志中查找出第一时效搜索式集合;选取满足以下选取条件之一的搜索式作为候选时效搜索式:位于搜索日志中且与第一时效搜索式集合中的第一时效搜索式在语义上相关联;位于搜索日志中且包含预设关键词组合;对候选时效搜索式执行处理操作,得到第二时效搜索式;当用户输入的搜索式与第二时效搜索式匹配时,利用第二时效搜索式进行搜索。实现了基于已被识别的第一时效搜索式,从搜索日志的搜索式中得到第二时效搜索式,从而在确保时效搜索式的识别过程中的识别准确率的情况下,增加识别召回率,进而提升了对时效搜索式的识别效果。
-
公开(公告)号:CN106021364A
公开(公告)日:2016-10-12
申请号:CN201610306220.6
申请日:2016-05-10
Applicant: 百度在线网络技术(北京)有限公司
CPC classification number: G06K9/6257 , G06F17/30271 , G06F17/30867 , G06K9/66 , G06N3/0454 , G06N3/0472 , G06N3/08 , G06F17/30268
Abstract: 本发明实施例公开了一种图片搜索相关性预测模型的建立、图片搜索方法和装置。图片搜索相关性预测模型的建立方法包括:使用训练样本对预先构建的原始深层神经网络进行训练;训练样本包括:查询式以及图片数据,原始深层神经网络包括:表示向量生成网络以及相关计算网络;将训练完成的原始深层神经网络作为图片搜索相关性预测模型。本发明的技术方案优化了现有的图片搜索技术,在查询式与图片文本的语义匹配、查询式与图片内容的语义匹配、点击泛化等几个方面的能力比现有技术及各种融合和变种的能力更强,并可以大大提高图片搜索结果与用户输入的查询式之间的相关度。
-
公开(公告)号:CN104899322A
公开(公告)日:2015-09-09
申请号:CN201510342427.4
申请日:2015-06-18
Applicant: 百度在线网络技术(北京)有限公司
Inventor: 方高林
CPC classification number: G06F17/30867 , G06F17/30345 , G06F17/30528 , G06F17/3053 , G06F17/30699 , G06F17/30864 , G06F17/2785
Abstract: 本申请公开了一种搜索引擎及其实现方法。搜索引擎的实现方法包括:接收用户输入的查询请求;获取与查询请求匹配的候选结果;基于点击转义模型确定查询请求与每个候选结果之间的语义相关度;以及根据语义相关度对候选结果进行排序;其中,点击转义模型包括转义词典和/或非转义词典,转义词典包括确定发生转义的搜索结果的对应词语及其上下文,非转义词典包括确定未发生转义的搜索结果的对应词语及其上下文。按照本申请的技术方案,按照语义相关度对搜索的候选结果进行排序,能够提高搜索结果的排序效果,避免不符合用户搜索需求的结果出现在搜索结果列表的前列,从而确保用户具有良好的使用体验。
-
公开(公告)号:CN109241319B
公开(公告)日:2021-11-02
申请号:CN201811140217.7
申请日:2018-09-28
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明实施例公开了一种图片检索方法、装置、服务器和存储介质,其中,该方法包括:获取针对目标查询的多个召回结果;分别计算目标查询和所述多个召回结果在不同类别的参照信息上的分布情况,其中所述参照信息包括设定的文本分类体系和/或知识库;根据目标查询和所述多个召回结果的分布情况差异判断所述多个召回结果是否存在偏差;根据所述分布情况对存在偏差的召回结果进行纠偏,实现了在准确识别底层召回结果有偏差的情况下,进一步对召回结果进行纠偏,使得检索结果与query相关性变好,提升用户体验。
-
公开(公告)号:CN107451180B
公开(公告)日:2021-02-19
申请号:CN201710442512.7
申请日:2017-06-13
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/953
Abstract: 本发明提供一种识别站点同源关系的方法、装置、设备和计算机存储介质,识别站点同源关系的方法包括:抓取页面并进行解析,获取页面信息;统计所获取的页面信息,得到对应各页面站点的熵值与各图片站点的熵值、各页面站点与各图片站点之间的互信息、各页面站点与各图片站点的时间差值期望以及各页面站点与各图片站点的字面名称中的至少一个;根据所述各页面站点的熵值与各图片站点的熵值、所述各页面站点与各图片站点之间的互信息、所述各页面站点与各图片站点的时间差值期望以及所述各页面站点与各图片站点的字面名称中的至少一个,识别具有同源关系的页面站点以及图片站点。本发明能够识别站点同源关系,并能够提高识别的准确率。
-
公开(公告)号:CN105095434B
公开(公告)日:2019-03-29
申请号:CN201510436121.5
申请日:2015-07-23
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/35
Abstract: 本发明提供一种时效需求识别方法及装置。方法包括:接收用户输入的搜索词;根据预先从时效站点报道的时效事件中提取出的能够反映时效需求的表达特征,识别所述搜索词是否具有时效需求。本发明充分利用时效需求识别的先验知识,不依赖于用户使用搜索词的检索行为数据等后验知识,可以更及时地识别出时效需求,提高了识别时效需求的效率。
-
公开(公告)号:CN103744889B
公开(公告)日:2019-02-22
申请号:CN201310718033.5
申请日:2013-12-23
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/28 , G06F16/9535 , G06K9/62
Abstract: 本发明的目的是提供一种用于对问题进行聚类处理的方法与装置;获取待聚类的目标问题与候选问题;根据所述目标问题与候选问题的问题特征,确定所述目标问题与候选问题的特征向量;根据所述目标问题与候选问题的特征向量,计算所述目标问题与候选问题的相似度;根据所述相似度,并结合分段阈值,判断是否将所述目标问题与候选问题聚为一类。与现有技术相比,本发明根据待聚类的目标问题与候选问题的问题特征,确定特征向量,进而计算该目标问题与候选问题的相似度,并结合分段阈值,判断是否将该目标问题与候选问题聚为一类,高效、准确地对问题进行聚类处理,整合了问题资源,提高了用户的检索体验。
-
公开(公告)号:CN109241319A
公开(公告)日:2019-01-18
申请号:CN201811140217.7
申请日:2018-09-28
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明实施例公开了一种图片检索方法、装置、服务器和存储介质,其中,该方法包括:获取针对目标查询的多个召回结果;分别计算目标查询和所述多个召回结果在不同类别的参照信息上的分布情况,其中所述参照信息包括设定的文本分类体系和/或知识库;根据目标查询和所述多个召回结果的分布情况差异判断所述多个召回结果是否存在偏差;根据所述分布情况对存在偏差的召回结果进行纠偏,实现了在准确识别底层召回结果有偏差的情况下,进一步对召回结果进行纠偏,使得检索结果与query相关性变好,提升用户体验。
-
-
-
-
-
-
-
-
-