一种电子公文逐级分类方法及系统
摘要:
本发明涉及电子公文技术领域,特别是涉及一种电子公文逐级分类方法及系统。包括:基于爬虫对网络内的电子文本数据进行爬取,电子文本数据包括电子公文数据和非电子公文数据;分别将电子公文数据和非电子公文数据进行分类,并通过中文分词算法对分类后的电子公文数据中的中文文本进行分词处理;对进行分词处理后的电子公文数据中的停用词进行停用词删除处理以及对电子公文数据中的重复词进行去重处理;对停用词处理以及去重处理后的电子公文数据进行文本长度统计,并根据文本长度统计的结果对电子公文数据进行分类。本发明有效地实现了对电子公文进行分类,改善了由于电子公文数据繁杂造成的分类难度高的问题。
0/0