- 专利标题: 基于百度百科的电网领域短语识别分类方法、系统
-
申请号: CN202010323037.3申请日: 2020-04-22
-
公开(公告)号: CN111552809A公开(公告)日: 2020-08-18
- 发明人: 林静怀 , 李泽科 , 范士雄 , 冯长有 , 徐郑崎 , 范海威 , 韩晔 , 刘幸蔚 , 皮俊波 , 王晶 , 廖志芳 , 陈莹 , 李斌 , 吴锟
- 申请人: 中国电力科学研究院有限公司 , 国家电网有限公司 , 国网福建省电力有限公司 , 中南大学
- 申请人地址: 北京市海淀区清河小营东路15号
- 专利权人: 中国电力科学研究院有限公司,国家电网有限公司,国网福建省电力有限公司,中南大学
- 当前专利权人: 中国电力科学研究院有限公司,国家电网有限公司,国网福建省电力有限公司,中南大学
- 当前专利权人地址: 北京市海淀区清河小营东路15号
- 代理机构: 北京宝护知识产权代理有限公司
- 代理商 文骊鹍
- 主分类号: G06F16/35
- IPC分类号: G06F16/35 ; G06F16/36 ; G06F16/951 ; G06N20/20
摘要:
本发明公开了一种基于百度百科的电网领域短语识别分类方法、系统,其中方法包括:从给定的语料C中提取出出现频次大于或等于阈值t的短语视为高频候选短语;对提取到的所述高频候选短语进行冗余短语过滤;从互联网上的百度百科中爬取经短语过滤后剩余的各所述高频候选短语对应的词条解释,并将无法爬取到所述词条解释的所述高频候选短语视为非法短语予以剔除,将能够爬取到所述词条解释的所述高频候选短语视为合法短语予以保留;通过预先训练的电网领域短语识别分类模型,对被视为合法短语的所述高频候选短语进行识别分类,输出电网领域短语。本发明实现了从语料中对电网领域短语的精准识别、提取。
公开/授权文献
- CN111552809B 基于百度百科的电网领域短语识别分类方法、系统 公开/授权日:2024-07-02