非结构化文本的分类方法及计算机可读存储介质
摘要:
本发明公开了一种非结构化文本的分类方法及计算机可读存储介质,方法包括:构建评审专业词汇库;对待分类的修改意见文本进行清洗,并根据清洗后的修改意见文本,切分得到单字的顺序数组;根据评审专业词汇库,构建顺序数组对应的前缀词典,并根据前缀词典,形成有向无环图;分别计算有向无环图中各路径的概率;判断最大概率值是否大于或等于预设的阈值;若是,则根据最大概率值对应的路径,得到最优分词结果;若否,则根据马尔科夫模型,对顺序数组进行中文分词,得到最优分词结果;将最优分词结果与预设的典型修改意见进行模糊匹配,并根据模糊匹配的结果对修改意见文本进行分类。本发明可实现修改意见的自动分类。
0/0