-
公开(公告)号:CN109460458B
公开(公告)日:2020-09-29
申请号:CN201811267746.3
申请日:2018-10-29
申请人: 清华大学
IPC分类号: G06F16/332 , G06F16/35 , G06F16/36
摘要: 本公开涉及一种查询改写意图的预测方法及装置。该查询改写意图的预测方法包括:将待识别的查询数据输入预测模型进行处理,得到所述待识别的查询数据对应的至少一个意图;其中,所述待识别的查询数据包括原始查询词和改写查询词;根据所述待识别的查询数据对应的至少一个意图,得到所述待识别的查询数据对应的查询改写意图。本公开的查询改写意图的预测方法及装置,能够有效的解决查询数据稀疏造成查询理解准确率较低的问题,从而实现准确的预测用户的查询改写意图,提高用户的使用体验。
-
公开(公告)号:CN111489019A
公开(公告)日:2020-08-04
申请号:CN202010242339.8
申请日:2020-03-31
申请人: 清华大学
摘要: 本公开涉及一种睡眠质量预测方法及装置,所述方法包括:获取目标用户在睡眠时刻之前的预设时间段内的用户信息,所述用户信息包括用户生理信息、用户活动信息、用户所在环境信息、用户饮食信息以及用户睡眠信息中的至少一种;根据所述目标用户的用户信息,通过预训练的睡眠质量预测模型对所述目标用户的睡眠质量进行预测,得到所述目标用户的睡眠质量预测结果;在所述睡眠质量预测结果不满足预设条件时,发送提示信息。本公开实施例的睡眠质量预测方法能够在睡前预测目标用户的睡眠质量,并在目标用户的睡眠质量不满足预设条件时发送提示信息。
-
公开(公告)号:CN109145213B
公开(公告)日:2020-07-28
申请号:CN201810962635.8
申请日:2018-08-22
申请人: 清华大学
IPC分类号: G06F16/9535 , G06F16/33
摘要: 本公开涉及一种基于历史信息的查询推荐方法及装置,包括:响应于当前查询会话中当前查询的查询操作,获取所述当前查询会话的多个历史查询的历史查询词以及与所述多个历史查询对应的目标文档的标题信息,所述目标文档为历史查询中被浏览过的文档;根据所述目标文档的标题信息及所述历史查询词,生成与当前查询会话对应的上下文向量;获取所述当前查询的查询词相匹配的多个候选查询词;根据所述上下文向量,确定所述多个候选查询词的推荐分值;根据所述推荐分值,从所述多个候选查询词中确定所述当前查询的推荐查询词。根据本公开提供的一种基于历史信息的查询推荐方法及装置,能够提高推荐查询词的精准度。
-
公开(公告)号:CN109460458A
公开(公告)日:2019-03-12
申请号:CN201811267746.3
申请日:2018-10-29
申请人: 清华大学
IPC分类号: G06F16/332 , G06F16/35 , G06F16/36
摘要: 本公开涉及一种查询改写意图的预测方法及装置。该查询改写意图的预测方法包括:将待识别的查询数据输入预测模型进行处理,得到所述待识别的查询数据对应的至少一个意图;其中,所述待识别的查询数据包括原始查询词和改写查询词;根据所述待识别的查询数据对应的至少一个意图,得到所述待识别的查询数据对应的查询改写意图。本公开的查询改写意图的预测方法及装置,能够有效的解决查询数据稀疏造成查询理解准确率较低的问题,从而实现准确的预测用户的查询改写意图,提高用户的使用体验。
-
公开(公告)号:CN109241243A
公开(公告)日:2019-01-18
申请号:CN201811004434.3
申请日:2018-08-30
申请人: 清华大学
IPC分类号: G06F16/33 , G06F16/9535
摘要: 本公开是关于一种候选文档排序方法及装置,该方法包括:根据当前查询会话的查询关键词,从数据库中获取与所述查询关键词匹配的第一候选文档;根据所述当前查询会话的数据以及历史查询会话的数据,确定多个训练簇中与所述当前查询会话匹配的第一训练簇;根据与所述第一训练簇对应的马尔可夫模型,对所述第一候选文档进行排序处理,获得所述第一候选文档的排序列表。本公开能够确保选择与当前查询会话的关键词和/或候选文档相关的马尔可夫模型来对候选文档进行排序,使得候选文档的排序能够更加趋向于用户的查询期望。
-
公开(公告)号:CN103412940B
公开(公告)日:2016-08-10
申请号:CN201310368700.1
申请日:2013-08-22
申请人: 清华大学
摘要: 本发明提出一种检测欺诈电话的方法,包括以下步骤:获取搜索引擎日志;并从中提取预设时间段内的包含预设关键字段的查询集合,对该查询集合进行筛选,并将筛选的查询集合按照查询次数进行排序;将排序后的查询集合提交至搜索引擎进行搜索,对搜索结果进行分析,以获取种子官方电话集合及种子欺诈电话集合;根据搜索结果建立电话共现关系图;根据种子官方电话集合、种子欺诈电话集合、及电话共现关系图检测搜索结果中是否存在欺诈电话。本发明的实施例能够及时高效地检测欺诈电话,提升搜索引擎的服务性能,减少用户的损失,另外,该方法涉及的算法复杂度低,易于实现,具有较好的推广性和适应性,且检测效果客观、全面、可靠。
-
公开(公告)号:CN105630901A
公开(公告)日:2016-06-01
申请号:CN201510961791.9
申请日:2015-12-21
申请人: 清华大学
IPC分类号: G06F17/30
CPC分类号: G06F17/30604
摘要: 本发明公开了一种知识图谱表示学习方法,该方法包括:利用实体向量与关系向量之间基于平移的模型,定义关系三元组(head,relation,tail)中实体向量与关系向量之间的相互关联;利用神经网络分类模型,定义特性三元组(entity,attribute,value)中实体向量与特性向量之间的相互关联;通过评价函数将实体向量、关系向量和特性向量关联起来,并最小化评价函数,以学习实体向量、关系向量和特性向量,达到优化目标。采用本发明能够精确表示实体、关系和特性之间的联系。
-
公开(公告)号:CN103294664A
公开(公告)日:2013-09-11
申请号:CN201310279184.5
申请日:2013-07-04
申请人: 清华大学
IPC分类号: G06F17/27
摘要: 本发明提出一种开放领域新词发现的方法及系统。其中,方法包括:接收待处理语料,并对语料进行格式转换和分词处理,以获得多个文本信息;提取多个文本信息的特征信息;判断多个文本信息中一部分文本信息的相邻的文本信息的组合是否为新词;如果是,则对相邻的文本信息进行新词边界标注;根据标注后的多个文本信息和特征信息估计条件随机场模型的参数;根据估计的条件随机场模型的参数对剩余文本信息进行识别,以获得剩余文本信息的新词。根据本发明实施例的方法,通过对文本信息进行新词边界标注,估计条件随机场模型的参数,并对多个文本信息进行识别以获得多个文本信息中的新词,可以对各种领域的新词进行识别,同时提高了识别的效率。
-
公开(公告)号:CN103064984A
公开(公告)日:2013-04-24
申请号:CN201310029963.X
申请日:2013-01-25
申请人: 清华大学 , 北京搜狗科技发展有限公司
IPC分类号: G06F17/30
摘要: 本发明提出一种垃圾网页的识别方法及系统。其中,方法包括:获取搜索引擎的查询日志并对查询日志进行预处理获得预处理查询日志;从预处理查询日志的多个查询和结果网页中筛选出查询的用户点击率和结果网页的出现次数大于阈值的查询-结果集合;从查询-结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合;根据查询-结果集合和垃圾网页样例集合计算查询-结果集合中每个结果网页的垃圾得分和每个查询的作弊得分;当结果网页的垃圾得分大于阈值则结果网页为垃圾网页,并将结果网页添加到垃圾网页集合中。根据本发明实施例的方法,通过搜索引擎查询日志发现和识别垃圾网页降低了算法复杂度,具有较好的推广性和适应性。
-
公开(公告)号:CN101789017B
公开(公告)日:2012-07-18
申请号:CN201010109570.6
申请日:2010-02-09
申请人: 清华大学 , 北京搜狗科技发展有限公司
IPC分类号: G06F17/30
摘要: 本发明提出一种基于用户互联网浏览行为的网页描述文档构建方法,包括以下步骤:提取用户浏览日志中记录的用户浏览事件;根据用户浏览事件建立用户浏览链接/网页模型;根据用户浏览链接/网页模型生成网页描述文档。本发明实施例提出的网页描述文档构建方法融合了用户的网页浏览行为,从而可以在不需要人工刻意参与的情况下,准确客观和快捷及时的进行检索。
-
-
-
-
-
-
-
-
-