-
公开(公告)号:CN108038099A
公开(公告)日:2018-05-15
申请号:CN201711228193.6
申请日:2017-11-29
Applicant: 贵州大学
IPC: G06F17/27
Abstract: 本发明公开了一种基于词聚类的低频关键词识别方法。本发明提出了3个创新点:(1)提出一种区别于传统方法的低频关键词词识别方法,该方法利用关键词的语义结构信息进行识别,能有效缓解低频关键词识别中上下文特征稀疏的问题。(2)提出一种基于词聚类的关键词语义结构生成方法,该方法利用词聚类后的词类标签替换候选关键词,然后选择出现次数多的标签模式作为语义结构。(3)针对相同语义结构下的低频关键词,提出一种面向低频关键词的排序方法,该方法利用文档信息对低频词进行排序。因此,本发明以网页自设置的关键词进行匹配,不需要训练数据,也不需要进行样本学习,脱离了网站结构的限制,具有较好的通用性。
-
公开(公告)号:CN108038099B
公开(公告)日:2021-07-09
申请号:CN201711228193.6
申请日:2017-11-29
Applicant: 贵州大学
IPC: G06F40/284
Abstract: 本发明公开了一种基于词聚类的低频关键词识别方法。本发明提出了3个创新点:(1)提出一种区别于传统方法的低频关键词词识别方法,该方法利用关键词的语义结构信息进行识别,能有效缓解低频关键词识别中上下文特征稀疏的问题。(2)提出一种基于词聚类的关键词语义结构生成方法,该方法利用词聚类后的词类标签替换候选关键词,然后选择出现次数多的标签模式作为语义结构。(3)针对相同语义结构下的低频关键词,提出一种面向低频关键词的排序方法,该方法利用文档信息对低频词进行排序。因此,本发明以网页自设置的关键词进行匹配,不需要训练数据,也不需要进行样本学习,脱离了网站结构的限制,具有较好的通用性。
-