电力文件自动分类方法及装置
摘要:
本申请提供一种电力文件自动分类方法及装置,方法包括:根据待分类电力文件生成语料集合、标题集合和词汇集合;基于词汇集合生成K维的输入向量;其中,K为词汇集合中词汇的数量;使用语料集合和标题集合并基于词嵌入的方式对输入向量进行训练,以使该K维的输入向量被压缩为C维的词向量;统计词汇集合中各个关键词分别在各个待分类电力文件中的词频并生成各个待分类电力文件各自对应的向量;根据C维的词向量构造一矩阵并计算矩阵分别与各个待分类电力文件各自对应的向量的乘积;对各个乘积结果进行聚类分析并使用闵可夫斯基距离作为聚类分析中的向量距离将待分类电力文件划分为预设数目个类别。本申请能够提高了分类效率和分类的准确率。
公开/授权文献
0/0