- 专利标题: 非结构化文本的分类方法及计算机可读存储介质
-
申请号: CN202011514745.1申请日: 2020-12-21
-
公开(公告)号: CN112579775A公开(公告)日: 2021-03-30
- 发明人: 林宇彬 , 黄晓予 , 张诗鸣 , 杨迪珊 , 颜磊 , 胡臻达 , 张成炜 , 傅本钊 , 张劲波 , 程诺 , 熊莹
- 申请人: 国网福建省电力有限公司经济技术研究院 , 国网福建省电力有限公司
- 申请人地址: 福建省福州市晋安区秀峰路221号亿力名居园1#楼;
- 专利权人: 国网福建省电力有限公司经济技术研究院,国网福建省电力有限公司
- 当前专利权人: 国网福建省电力有限公司经济技术研究院,国网福建省电力有限公司
- 当前专利权人地址: 福建省福州市晋安区秀峰路221号亿力名居园1#楼;
- 代理机构: 福州市博深专利事务所
- 代理商 颜丽蓉
- 主分类号: G06F16/35
- IPC分类号: G06F16/35 ; G06F16/36 ; G06F40/289 ; G06F40/242
摘要:
本发明公开了一种非结构化文本的分类方法及计算机可读存储介质,方法包括:构建评审专业词汇库;对待分类的修改意见文本进行清洗,并根据清洗后的修改意见文本,切分得到单字的顺序数组;根据评审专业词汇库,构建顺序数组对应的前缀词典,并根据前缀词典,形成有向无环图;分别计算有向无环图中各路径的概率;判断最大概率值是否大于或等于预设的阈值;若是,则根据最大概率值对应的路径,得到最优分词结果;若否,则根据马尔科夫模型,对顺序数组进行中文分词,得到最优分词结果;将最优分词结果与预设的典型修改意见进行模糊匹配,并根据模糊匹配的结果对修改意见文本进行分类。本发明可实现修改意见的自动分类。
公开/授权文献
- CN112579775B 非结构化文本的分类方法及计算机可读存储介质 公开/授权日:2022-11-22