-
公开(公告)号:CN109543023A
公开(公告)日:2019-03-29
申请号:CN201811147380.6
申请日:2018-09-29
IPC分类号: G06F16/335 , G06F16/35 , G06F16/9032
摘要: 本发明公开了一种基于trie和LCS算法的文献分类方法,包括以下步骤:步骤一、预编初始分类字典和初始排除字典;步骤二、将初始分类字典中的每一个字符串扩展得到扩展字符串,根据初始排除字典对得到的扩展字符串过滤后构建字典树;步骤三、调用字典树查找待分类文献中的每一个句子中出现的所有的字符串,取其中含有的属于初始分类字典中的最长的字符串作为最长公共子序列,最长公共子序列及其对应的类作为该一个句子的最终字符串及最终类,将一篇文献中出现频率最多的最终类作为其所属的类。本发明还公开了一种基于trie和LCS算法的文献分类系统。本发明省略了分词过程,以稳定的字符串为特征,准确度高,降低了对上下文的依赖。
-
公开(公告)号:CN109543023B
公开(公告)日:2020-09-08
申请号:CN201811147380.6
申请日:2018-09-29
IPC分类号: G06F16/335 , G06F16/35 , G06F16/9032
摘要: 本发明公开了一种基于trie和LCS算法的文献分类方法,包括以下步骤:步骤一、预编初始分类字典和初始排除字典;步骤二、将初始分类字典中的每一个字符串扩展得到扩展字符串,根据初始排除字典对得到的扩展字符串过滤后构建字典树;步骤三、调用字典树查找待分类文献中的每一个句子中出现的所有的字符串,取其中含有的属于初始分类字典中的最长的字符串作为最长公共子序列,最长公共子序列及其对应的类作为该一个句子的最终字符串及最终类,将一篇文献中出现频率最多的最终类作为其所属的类。本发明还公开了一种基于trie和LCS算法的文献分类系统。本发明省略了分词过程,以稳定的字符串为特征,准确度高,降低了对上下文的依赖。
-
公开(公告)号:CN109522892A
公开(公告)日:2019-03-26
申请号:CN201811147409.0
申请日:2018-09-29
申请人: 北明智通(北京)科技有限公司
CPC分类号: G06K9/325 , G06K9/3283 , G06K2209/01 , G06N3/0454 , G06N3/08
摘要: 本发明公开了一种神经网络辅助的文字图像信息标注方法,待识别的文字图片在用神经网络模型进行识别前经过行文字倾斜校正,所述行文字倾斜校正包括以下步骤:步骤一、利用投影法将待识别的文字图片按行切分得多条行文字图片,用每条行文字图片的竖直中心线将该条行文字图片分为左半部分和右半部分;步骤二、将每条行文字图片中左半部分字符像素点的中心点和右半部分字符像素点的中心点连线并计算斜率;步骤三、以左半部分字符像素点的中心点为定点,将左半部分字符像素点的中心点右侧的所有字符像素点均向下或向上平移至步骤二中所述斜率为零。本发明极大的减少了人工键盘输入文字信息的次数,从而减少了键入错别字的可能性。
-
-