一种词项的权重标注方法和装置

    公开(公告)号:CN105975459A

    公开(公告)日:2016-09-28

    申请号:CN201610349578.7

    申请日:2016-05-24

    IPC分类号: G06F17/27 G06F17/30 G06F15/18

    摘要: 本申请实施例提供了一种词项的权重标注方法和装置,涉及网络搜索技术领域。所述方法包括:获取待确定权重的各个词项;结合搜索日志,计算所述各个词项的词项搜索权重;根据所述各个词项在文档集合中出现的频率,计算所述各个词项的逆向文件频率;根据所述各个词项的所述词项搜索权重和所述逆向文件频率,计算词项权重。解决了在网络搜索领域使用TF‑IDF计算词项权重的方法,在基于搜索词以短文本为主的搜索任务时,重要的词项反而被标记较小权重的问题,使词项权重计算主要基于搜索日志,取得了加深词项和搜索词之间联系的同时,更提高了在搜索环境下词项和文档之间相关性计算的精度,提升了搜索排序质量的效果。

    资源信息的推荐方法和装置

    公开(公告)号:CN105956148A

    公开(公告)日:2016-09-21

    申请号:CN201610317203.2

    申请日:2016-05-12

    发明人: 胡军

    IPC分类号: G06F17/30

    CPC分类号: G06F16/9535

    摘要: 本发明实施例提供了一种资源信息的推荐方法和装置,该推荐方法包括:接收外部系统请求的用户搜索词;对用户搜索词进行分词处理,生成搜索分词列表;通过搜索分词列表在预置的索引表中查找与每个搜索分词对应的资源信息列表,得到目标资源信息列表,其中,目标资源信息列表中的目标资源信息包括若干个关键词;将目标资源信息中的若干个关键词返回至外部系统。本发明能够在资源信息中查找与外部系统请求的搜索词相关联的资源信息,并将该资源信息的关键词返回至外部系统,实现了外部系统与资源信息的关键词相融合,能够为用户推荐与搜索词相关联的资源信息,提高用户的搜索体验,并提高了资源信息的推广度和应用范围。

    一种视频搜索排序的方法和系统

    公开(公告)号:CN105183897A

    公开(公告)日:2015-12-23

    申请号:CN201510634855.4

    申请日:2015-09-29

    IPC分类号: G06F17/30

    摘要: 本发明提供了一种视频搜索排序的方法和系统,所述方法包括:根据视频的文本描述信息获得与用户搜索视频的关键词相关的结果候选集;记录结果候选集中每个候选视频与关键词的相关度信息;根据预设的第一数据库中存储的视频信息将结果候选集中的第一类视频删除;从预设的第二数据库中查询得到删除第一类视频后的结果候选集中的每个候选视频的质量信息,并从预设的第三数据库中查询得到删除第一类视频后的结果候选集中的每个候选视频针对关键词的调权信息;根据相关度信息、质量信息和调权信息得到删除第一类视频后的结果候选集中的每个候选视频的排序分数;对得到的每个候选视频的排序分数进行降序排列,并将前K个排序分数对应的候选视频返回用户。

    一种低质量视频识别方法及装置

    公开(公告)号:CN109684513B

    公开(公告)日:2021-08-24

    申请号:CN201811532655.8

    申请日:2018-12-14

    摘要: 本发明公开了一种低质量视频识别方法及装置,获取用户反馈的负反馈日志集,基于从负反馈日志集获取低质量视频标签数据中的包含的各个视频ID,从视频特征库中筛选对每个视频ID对应的低质量视频特征,并从视频特征库中除了作为低质量视频特征以外的视频特征信息随机选取非低质量视频特征,将筛选出的低质量视频特征和随机抽取的非低质量视频特征作为训练样本,以低质量视频特征对应的视频标签ID和非低质量视频特征对应的视频标签ID为样本标签进行训练得到低质量视频识别模型,以进行低质量视频识别。本发明采用负反馈日志的方式来对低质量视频进行标注,实现了以低成本获取海量的标签数据,节约了人工标注的时间和人力成本。

    一种作弊视频识别方法和装置

    公开(公告)号:CN108764021B

    公开(公告)日:2021-03-26

    申请号:CN201810299200.X

    申请日:2018-04-04

    发明人: 梁召 陈英傑 胡军

    摘要: 本发明实施例提供了一种作弊视频识别方法和装置,涉及数据处理技术领域。其中,该方法包括:根据预设时间段内各个对象观看目标视频的观看时长中值,以及所述目标视频的总时长,确定所述目标视频的观看时长中值比;确定所述预设时间段内所述各个对象观看所述目标视频的完成度参数;根据所述目标视频的观看时长中值比和完成度参数,确定所述目标视频的作弊参数;当所述目标视频的作弊参数满足预设作弊条件时,确定所述目标视频为作弊视频。在本发明实施例中,可以利用用户行为参数表征视频的作弊参数,进而当视频的作弊参数满足预设作弊条件时,可以确定该视频为作弊视频,从而可以通过用户的观看行为识别出标题与内容严重不符的作弊视频。

    推荐信息点击率确定方法、装置及电子设备

    公开(公告)号:CN109753601A

    公开(公告)日:2019-05-14

    申请号:CN201811436037.3

    申请日:2018-11-28

    发明人: 梁召 胡军 陈英傑

    IPC分类号: G06F16/9535 G06F17/18

    摘要: 本发明实施例提供了推荐信息点击率确定方法、装置及电子设备,该方法包括:获取针对指定类型中推荐信息的信息选取指令;确定信息选取指令选取的目标推荐信息及目标推荐信息所在的行;更新目标推荐信息的点击次数;根据目标推荐信息所在的行及各推荐信息所在的行,通过指定类型对应的预设概率模型,确定各推荐信息被用户看到的概率,其中,同一行的各推荐信息被用户看到的概率相同;按照各推荐信息被用户看到的概率,更新各推荐信息的浏览次数;按照各推荐信息的点击次数及浏览次数,计算各推荐信息的点击率。通过本发明实施例的推荐信息点击率确定方法,点击率的计算更加合理准确。

    一种视频搜索方法及装置
    17.
    发明公开

    公开(公告)号:CN108984722A

    公开(公告)日:2018-12-11

    申请号:CN201810752054.1

    申请日:2018-07-10

    发明人: 梁召 陈英傑 胡军

    IPC分类号: G06F17/30

    摘要: 本申请提供了一种视频搜索方法及装置,方法包括:响应搜索视频请求,获取查询词;获取视频名称中包含查询词的视频,作为目标视频;利用预先训练的质量评估模型,对各个目标视频进行质量评估,得到质量评估结果,质量评估模型为预先利用训练视频的视频质量水平参数和视频特征参数训练得到的模型;选取质量评估结果高于设定质量阈值的视频,作为搜索结果。在本申请中,通过以上方式可以提高质量高的视频的展示机会,进而提高搜索效果和用户体验。

    一种视频排序的方法及装置

    公开(公告)号:CN108804647A

    公开(公告)日:2018-11-13

    申请号:CN201810575017.8

    申请日:2018-06-06

    发明人: 梁召 陈英傑 胡军

    IPC分类号: G06F17/30

    摘要: 本发明实施例提供了一种视频排序的方法,涉及计算机处理技术领域,用于解决片库搜索结果中,一些热门视频长期处于显示界面中排序靠前的位置的问题。本发明实施例的方法包括:分别统计各待排序视频的至少两类播放信息,然后分别对各待排序视频的至少两类播放信息进行加权计算,得到各待排序视频的优先权系数,进而按照各待排序视频的优先权系数对各待排序视频进行排序。该方法应用于视频搜索的流程中。

    一种视频点击满意度的确定方法及装置

    公开(公告)号:CN108495150A

    公开(公告)日:2018-09-04

    申请号:CN201810070348.6

    申请日:2018-01-24

    IPC分类号: H04N21/24 H04N21/266

    摘要: 本发明实施例提供了一种视频点击满意度的确定方法及装置,所述方法包括:按照视频时长确定目标视频的留存得分;将所述留存得分与预先确定对应视频时长的平均留存得分进行归一化处理,得到对应视频时长上的归一化留存得分;根据所述归一化留存得分的高低确定用户对所述目标视频满意度的高低。也就是说,如果归一化处理留存得分的高,则说明用户该目标视频的满意度就高,相反的就低,还可以以满意度的高低来评估该目标视频质量的好坏,以及该目标视频是否为作弊视频等。从而解决了现有技术中不能有效的衡量用户对目标视频播放满意度的问题。

    一种文本匹配方法及装置
    20.
    发明公开

    公开(公告)号:CN105893533A

    公开(公告)日:2016-08-24

    申请号:CN201610195786.6

    申请日:2016-03-31

    IPC分类号: G06F17/30

    CPC分类号: G06F17/30867 G06F17/30705

    摘要: 本发明实施例提供了一种文本匹配方法及装置,应用于电子设备,所述方法包括:接收用户输入的搜索词,并将所述搜索词进行分词处理,得到至少一个分词;根据各分词的词性、语义属性、作为独立搜索词的概率和点击率中的至少一个,及预先训练的分类模型,确定各分词的重要性权重;根据待匹配文本以及所述待匹配文本所在的文本集,确定各分词的词频、以及逆向文件频率;根据各分词的重要性权重、词频以及逆向文件频率,计算所述搜索词与所述待匹配文本的匹配度。本发明实施例中,同时使用各分词的重要性权重和逆向文件频率能够更准确地衡量各分词的重要程度,因此,在根据各分词的重要程度进行文本匹配时,能够提高文本匹配的准确性。