-
公开(公告)号:CN109543023A
公开(公告)日:2019-03-29
申请号:CN201811147380.6
申请日:2018-09-29
IPC分类号: G06F16/335 , G06F16/35 , G06F16/9032
摘要: 本发明公开了一种基于trie和LCS算法的文献分类方法,包括以下步骤:步骤一、预编初始分类字典和初始排除字典;步骤二、将初始分类字典中的每一个字符串扩展得到扩展字符串,根据初始排除字典对得到的扩展字符串过滤后构建字典树;步骤三、调用字典树查找待分类文献中的每一个句子中出现的所有的字符串,取其中含有的属于初始分类字典中的最长的字符串作为最长公共子序列,最长公共子序列及其对应的类作为该一个句子的最终字符串及最终类,将一篇文献中出现频率最多的最终类作为其所属的类。本发明还公开了一种基于trie和LCS算法的文献分类系统。本发明省略了分词过程,以稳定的字符串为特征,准确度高,降低了对上下文的依赖。
-
公开(公告)号:CN109543023B
公开(公告)日:2020-09-08
申请号:CN201811147380.6
申请日:2018-09-29
IPC分类号: G06F16/335 , G06F16/35 , G06F16/9032
摘要: 本发明公开了一种基于trie和LCS算法的文献分类方法,包括以下步骤:步骤一、预编初始分类字典和初始排除字典;步骤二、将初始分类字典中的每一个字符串扩展得到扩展字符串,根据初始排除字典对得到的扩展字符串过滤后构建字典树;步骤三、调用字典树查找待分类文献中的每一个句子中出现的所有的字符串,取其中含有的属于初始分类字典中的最长的字符串作为最长公共子序列,最长公共子序列及其对应的类作为该一个句子的最终字符串及最终类,将一篇文献中出现频率最多的最终类作为其所属的类。本发明还公开了一种基于trie和LCS算法的文献分类系统。本发明省略了分词过程,以稳定的字符串为特征,准确度高,降低了对上下文的依赖。
-
公开(公告)号:CN114428781A
公开(公告)日:2022-05-03
申请号:CN202011068559.X
申请日:2020-09-30
IPC分类号: G06F16/23 , G06F16/2458 , G06F16/25 , G06F16/28 , G06F40/211 , G06F40/295 , G06F40/30
摘要: 本公开涉及关联关系更新技术领域,特别地涉及一种命名实体关联关系更新方法、系统、可读存储介质,方法包括:命名实体关联关系训练集生成与更新步骤S100,对原始语句中的命名实体进行标注而生成训练语句,基于不同文档的所有训练语句生成训练集;命名实体关联关系的统计语义规则挖掘步骤S200,从所述训练集中挖掘与已知的命名实体关联关系对应的顺序关系模式,基于所述顺序关系模式而生成候选命名实体关联关系;命名实体关联关系的生成与修正步骤S300,将所述候选命名实体关联关系展现给用户,获取用户确认所述候选命名实体关联关系是否为可信命名实体关联关系的操作;命名实体关联关系的存储步骤S400,存储所述可信命名实体关联关系。
-
-