发明公开
- 专利标题: 电力文件自动分类方法及装置
- 专利标题(英): Power file automatic classification method and device
-
申请号: CN201910588345.6申请日: 2019-07-02
-
公开(公告)号: CN110389932A公开(公告)日: 2019-10-29
- 发明人: 徐小天 , 李敏 , 孙跃 , 高冉馨
- 申请人: 华北电力科学研究院有限责任公司 , 国家电网有限公司
- 申请人地址: 北京市西城区复兴门外地藏庵南巷一号
- 专利权人: 华北电力科学研究院有限责任公司,国家电网有限公司
- 当前专利权人: 华北电力科学研究院有限责任公司,国家电网有限公司
- 当前专利权人地址: 北京市西城区复兴门外地藏庵南巷一号
- 代理机构: 北京三友知识产权代理有限公司
- 代理商 王涛; 任默闻
- 主分类号: G06F16/14
- IPC分类号: G06F16/14 ; G06F16/16 ; G06F16/35 ; G06F17/27
摘要:
本申请提供一种电力文件自动分类方法及装置,方法包括:根据待分类电力文件生成语料集合、标题集合和词汇集合;基于词汇集合生成K维的输入向量;其中,K为词汇集合中词汇的数量;使用语料集合和标题集合并基于词嵌入的方式对输入向量进行训练,以使该K维的输入向量被压缩为C维的词向量;统计词汇集合中各个关键词分别在各个待分类电力文件中的词频并生成各个待分类电力文件各自对应的向量;根据C维的词向量构造一矩阵并计算矩阵分别与各个待分类电力文件各自对应的向量的乘积;对各个乘积结果进行聚类分析并使用闵可夫斯基距离作为聚类分析中的向量距离将待分类电力文件划分为预设数目个类别。本申请能够提高了分类效率和分类的准确率。
公开/授权文献
- CN110389932B 电力文件自动分类方法及装置 公开/授权日:2023-01-13