-
公开(公告)号:CN105824828A
公开(公告)日:2016-08-03
申请号:CN201510004659.9
申请日:2015-01-06
申请人: 深圳市腾讯计算机系统有限公司
IPC分类号: G06F17/30
摘要: 一种标签挖掘方法及装置,该方法包括:从结构化数据中挖掘第n种子集合,该第n种子集合中的种子为APP名称与标签构成的二元组,并利用该第n种子集合中的种子在非结构化数据中进行搜索,获取第n句子集合,该第n句子集合中的句子包含该第n种子集合中的任意一个种子的APP名称与标签,且利用该第n句子集合中的任意两个句子进行匹配,得到第n泛化模板集合,根据该第n泛化模板集合中的泛化模板在该非结构化数据中进行标签挖掘,将挖掘得到的符合预先设置条件的APP名称与标签的二元组保存到语义标签库中。通过生成能够在非结构化数据中进行标签挖掘的泛化模板集合,能够有效的实现在非结构化数据中的标签挖掘,标签挖掘更加全面。
-
公开(公告)号:CN106156204B
公开(公告)日:2020-05-29
申请号:CN201510197328.1
申请日:2015-04-23
申请人: 深圳市腾讯计算机系统有限公司
摘要: 本发明涉及一种文本标签的提取方法,包括:对待提取文本通过文本分类模型进行类别预测,得到所述文本的目标类别,对所述待提取文本通过主题聚类模型进行主题预测,得到预测主题,如果所述预测主题在预设主题集合中,则获取所述预测主题对应的目标主题,对所述待提取文本进行关键词提取,得到所述文本的目标关键词,将所述目标类别、目标主题和目标关键词作为所述文本的标签。文本的标签具有不同的层次,满足不同粒度的检索需求,也可以根据不同的标签,提供不同粒度的推荐文章。此外,还提供了一种文本标签的提取装置。
-
公开(公告)号:CN105824828B
公开(公告)日:2020-01-10
申请号:CN201510004659.9
申请日:2015-01-06
申请人: 深圳市腾讯计算机系统有限公司
IPC分类号: G06F16/2458
摘要: 一种标签挖掘方法及装置,该方法包括:从结构化数据中挖掘第n种子集合,该第n种子集合中的种子为APP名称与标签构成的二元组,并利用该第n种子集合中的种子在非结构化数据中进行搜索,获取第n句子集合,该第n句子集合中的句子包含该第n种子集合中的任意一个种子的APP名称与标签,且利用该第n句子集合中的任意两个句子进行匹配,得到第n泛化模板集合,根据该第n泛化模板集合中的泛化模板在该非结构化数据中进行标签挖掘,将挖掘得到的符合预先设置条件的APP名称与标签的二元组保存到语义标签库中。通过生成能够在非结构化数据中进行标签挖掘的泛化模板集合,能够有效的实现在非结构化数据中的标签挖掘,标签挖掘更加全面。
-
公开(公告)号:CN106156204A
公开(公告)日:2016-11-23
申请号:CN201510197328.1
申请日:2015-04-23
申请人: 深圳市腾讯计算机系统有限公司
IPC分类号: G06F17/30
摘要: 本发明涉及一种文本标签的提取方法,包括:对待提取文本通过文本分类模型进行类别预测,得到所述文本的目标类别,对所述待提取文本通过主题聚类模型进行主题预测,得到预测主题,如果所述预测主题在预设主题集合中,则获取所述预测主题对应的目标主题,对所述待提取文本进行关键词提取,得到所述文本的目标关键词,将所述目标类别、目标主题和目标关键词作为所述文本的标签。文本的标签具有不同的层次,满足不同粒度的检索需求,也可以根据不同的标签,提供不同粒度的推荐文章。此外,还提供了一种文本标签的提取装置。
-
-
-