发明公开
- 专利标题: 一种电子公文逐级分类方法及系统
-
申请号: CN202310854971.1申请日: 2023-07-12
-
公开(公告)号: CN117216259A公开(公告)日: 2023-12-12
- 发明人: 王星汉 , 张扬 , 王文涛 , 李栋梁 , 李云平 , 高梦阳 , 李勇 , 王肖嵬 , 刘丽 , 周聪
- 申请人: 山东日照发电有限公司 , 华能信息技术有限公司 , 华能山东发电有限公司
- 申请人地址: 山东省日照市北京路399号
- 专利权人: 山东日照发电有限公司,华能信息技术有限公司,华能山东发电有限公司
- 当前专利权人: 山东日照发电有限公司,华能信息技术有限公司,华能山东发电有限公司
- 当前专利权人地址: 山东省日照市北京路399号
- 代理机构: 北京睿博行远知识产权代理有限公司
- 代理商 禚其昌
- 主分类号: G06F16/35
- IPC分类号: G06F16/35 ; G06F40/289 ; G06F40/216
摘要:
本发明涉及电子公文技术领域,特别是涉及一种电子公文逐级分类方法及系统。包括:基于爬虫对网络内的电子文本数据进行爬取,电子文本数据包括电子公文数据和非电子公文数据;分别将电子公文数据和非电子公文数据进行分类,并通过中文分词算法对分类后的电子公文数据中的中文文本进行分词处理;对进行分词处理后的电子公文数据中的停用词进行停用词删除处理以及对电子公文数据中的重复词进行去重处理;对停用词处理以及去重处理后的电子公文数据进行文本长度统计,并根据文本长度统计的结果对电子公文数据进行分类。本发明有效地实现了对电子公文进行分类,改善了由于电子公文数据繁杂造成的分类难度高的问题。