基于百度百科的电网领域短语识别分类方法、系统
摘要:
本发明公开了一种基于百度百科的电网领域短语识别分类方法、系统,其中方法包括:从给定的语料C中提取出出现频次大于或等于阈值t的短语视为高频候选短语;对提取到的所述高频候选短语进行冗余短语过滤;从互联网上的百度百科中爬取经短语过滤后剩余的各所述高频候选短语对应的词条解释,并将无法爬取到所述词条解释的所述高频候选短语视为非法短语予以剔除,将能够爬取到所述词条解释的所述高频候选短语视为合法短语予以保留;通过预先训练的电网领域短语识别分类模型,对被视为合法短语的所述高频候选短语进行识别分类,输出电网领域短语。本发明实现了从语料中对电网领域短语的精准识别、提取。
0/0