-
公开(公告)号:CN108595513B
公开(公告)日:2021-06-22
申请号:CN201810246771.7
申请日:2018-03-23
申请人: 北京奇艺世纪科技有限公司
摘要: 本发明实施例提供了一种视频搜索作弊处理方法及装置,所述方法包括:在数据库中获取预设时间内的多个自动引用通知,其中,每个所述自动引用通知对应有用户标识;分别确定每个所述用户标识对应的自动引用通知的数量;将所述数量满足预设作弊条件的用户标识所对应的自动引用通知,确定为作弊自动引用通知;对所述作弊自动引用通知进行无效处理。本发明实施例在数据库的自动引用通知中确定出作弊自动引用通知,并对作弊自动引用通知进行无效处理,则该作弊自动引用通知在后续的视频搜索结果排序中无效,从而消除作弊自动引用通知对视频搜索结果排序的干扰,提高处理作弊用户的准确率。
-
公开(公告)号:CN106897398B
公开(公告)日:2020-07-10
申请号:CN201710069779.6
申请日:2017-02-08
申请人: 北京奇艺世纪科技有限公司
IPC分类号: G06F16/735 , G06F16/78 , G06F16/74
摘要: 本发明提供了一种视频展示方法及装置,涉及视频搜索技术领域。所述方法包括:接收用户输入的视频搜索词;根据视频搜索词确定冷启动窗口的位置和冷启动窗口的大小;从倒排索引中获取与视频搜索词相关的视频集,并根据上传时间划分为新上线视频集和非新上线视频集;针对新上线视频集中的各视频,根据展示次数、点击率、预期点击率计算优胜指数;在搜索结果展示区域的冷启动窗口中展示新上线视频集中优胜指数靠前的各视频,以及在非冷启动窗口中展示非新上线视频集的各视频。由此解决了新上线视频的展示不符合用户需求、质量差,降低新上线视频的推荐成功率的问题,取得了提高新上线视频推荐成功率的有益效果。
-
公开(公告)号:CN106339404B
公开(公告)日:2019-10-22
申请号:CN201610509980.7
申请日:2016-06-30
申请人: 北京奇艺世纪科技有限公司
IPC分类号: G06F16/9535
摘要: 本申请提供了一种搜索词识别方法及装置,搜索词识别方法包括:计算待识别搜索词的搜索点击率;对待识别搜索词进行分词处理,得到多个词特征;利用统计语言模型和各个词特征,计算待识别搜索词出现的概率;计算待识别搜索词的全匹配结果数和相关结果数;计算全匹配结果数和相关结果数的比值,得到全匹配占比;利用搜索点击率、各个词特征、待识别搜索词出现的概率、全匹配结果数和全匹配占比,确定待识别搜索词为错误搜索词或正常搜索词。在本申请中,通过以上方式可以使智能纠错技术识别出更多错误搜索词,从而对更多的错误搜索词进行纠正,使搜索引擎返回更加精确的搜索结果给用户,提升用户的体验性。
-
公开(公告)号:CN106202293B
公开(公告)日:2019-05-10
申请号:CN201610509717.8
申请日:2016-06-30
申请人: 北京奇艺世纪科技有限公司
IPC分类号: G06F16/35
摘要: 本发明实施例公开了一种突发事件语料库的更新方法及装置,包括,获得视频的标题;根据所述标题,生成所述标题对应的第一词向量;根据所述第一词向量以及预设更新规则对用于更新所述突发事件语料库的聚类中心进行更新;对更新后的所述聚类中心的词向量进行过滤;根据过滤后的词向量,对所述突发事件语料库进行更新。应用本发明实施例,提高了针对更新突发事件语料库的更新效率,使面向突发事件的搜索结果更为合理。
-
公开(公告)号:CN105373600B
公开(公告)日:2019-02-22
申请号:CN201510726230.0
申请日:2015-10-30
申请人: 北京奇艺世纪科技有限公司
IPC分类号: G06F16/438 , G06F16/483
摘要: 本发明实施例提供了一种视频播单排序方法及装置,所述方法的一具体实施方式包括:响应于接收到视频搜索请求,获取符合搜索条件的各候选视频播单;从预先为每个视频播单对应存储的属性信息中,获得各候选视频播单的属性信息,所述属性信息包括:所述各候选视频播单的性能分数和所述各候选视频播单的上传者的等级分数;基于所述各候选视频播单的性能分数和所述各候选视频播单的上传者的等级分数,确定各候选视频播单的排序分数;根据所述各候选视频播单的排序分数,对所述各候选视频播单进行排序。本实施例能够提高视频播单排序的准确性。
-
公开(公告)号:CN105975459B
公开(公告)日:2018-09-21
申请号:CN201610349578.7
申请日:2016-05-24
申请人: 北京奇艺世纪科技有限公司
摘要: 本申请实施例提供了一种词项的权重标注方法和装置,涉及网络搜索技术领域。所述方法包括:获取待确定权重的各个词项;结合搜索日志,计算所述各个词项的词项搜索权重;根据所述各个词项在文档集合中出现的频率,计算所述各个词项的逆向文件频率;根据所述各个词项的所述词项搜索权重和所述逆向文件频率,计算词项权重。解决了在网络搜索领域使用TF‑IDF计算词项权重的方法,在基于搜索词以短文本为主的搜索任务时,重要的词项反而被标记较小权重的问题,使词项权重计算主要基于搜索日志,取得了加深词项和搜索词之间联系的同时,更提高了在搜索环境下词项和文档之间相关性计算的精度,提升了搜索排序质量的效果。
-
公开(公告)号:CN107590176A
公开(公告)日:2018-01-16
申请号:CN201710638936.0
申请日:2017-07-31
申请人: 北京奇艺世纪科技有限公司
IPC分类号: G06F17/30
摘要: 本发明实施例提供了一种评价指标的获得方法、装置及电子设备,所述方法包括:获得用户点击后播放预设查询词对应每一文件的第一时长;根据所述第一时长、预设的所述第一时长与第一预设阈值的对应关系、以及预设的所述第一预设阈值与相关性值的对应关系,获得所述每一文件的相关性值,其中,所述相关性值为所述每一文件与所述预设查询词的关联程度的量化参数;根据所述相关性值计算所述排序结果的归一化累计折扣信息增益值,并将所述归一化累计折扣信息增益值作为排序结果的评价指标。应用本发明实施例,可以提高文件的相关性的准确性,进而提高了对排序结果评价的准确性。
-
公开(公告)号:CN106897398A
公开(公告)日:2017-06-27
申请号:CN201710069779.6
申请日:2017-02-08
申请人: 北京奇艺世纪科技有限公司
IPC分类号: G06F17/30
摘要: 本发明提供了一种视频展示方法及装置,涉及视频搜索技术领域。所述方法包括:接收用户输入的视频搜索词;根据视频搜索词确定冷启动窗口的位置和冷启动窗口的大小;从倒排索引中获取与视频搜索词相关的视频集,并根据上传时间划分为新上线视频集和非新上线视频集;针对新上线视频集中的各视频,根据展示次数、点击率、预期点击率计算优胜指数;在搜索结果展示区域的冷启动窗口中展示新上线视频集中优胜指数靠前的各视频,以及在非冷启动窗口中展示非新上线视频集的各视频。由此解决了新上线视频的展示不符合用户需求、质量差,降低新上线视频的推荐成功率的问题,取得了提高新上线视频推荐成功率的有益效果。
-
公开(公告)号:CN106339404A
公开(公告)日:2017-01-18
申请号:CN201610509980.7
申请日:2016-06-30
申请人: 北京奇艺世纪科技有限公司
IPC分类号: G06F17/30
摘要: 本申请提供了一种搜索词识别方法及装置,搜索词识别方法包括:计算待识别搜索词的搜索点击率;对待识别搜索词进行分词处理,得到多个词特征;利用统计语言模型和各个词特征,计算待识别搜索词出现的概率;计算待识别搜索词的全匹配结果数和相关结果数;计算全匹配结果数和相关结果数的比值,得到全匹配占比;利用搜索点击率、各个词特征、待识别搜索词出现的概率、全匹配结果数和全匹配占比,确定待识别搜索词为错误搜索词或正常搜索词。在本申请中,通过以上方式可以使智能纠错技术识别出更多错误搜索词,从而对更多的错误搜索词进行纠正,使搜索引擎返回更加精确的搜索结果给用户,提升用户的体验性。
-
公开(公告)号:CN106326484A
公开(公告)日:2017-01-11
申请号:CN201610799830.4
申请日:2016-08-31
申请人: 北京奇艺世纪科技有限公司
摘要: 本发明提供了一种搜索词纠错方法及装置,其中的方法包括:识别出错误的搜索词;利用加权编辑距离算法,计算所述搜索词与预先获取的热词之间的加权编辑距离,其中,在所述加权编辑距离计算过程中,针对从搜索词转换到热词的操作,分别为插入字符操作、删除字符操作、形近字或音近字的替换操作、非形近字或音近字的替换操作、交换字符操作,设置不同数值的权重;根据所述加权编辑距离和热词热度,选取预定数目的热词进行纠错提示。本发明可提高对错误搜索词的纠错准确率。
-
-
-
-
-
-
-
-
-