-
公开(公告)号:CN109543023B
公开(公告)日:2020-09-08
申请号:CN201811147380.6
申请日:2018-09-29
IPC分类号: G06F16/335 , G06F16/35 , G06F16/9032
摘要: 本发明公开了一种基于trie和LCS算法的文献分类方法,包括以下步骤:步骤一、预编初始分类字典和初始排除字典;步骤二、将初始分类字典中的每一个字符串扩展得到扩展字符串,根据初始排除字典对得到的扩展字符串过滤后构建字典树;步骤三、调用字典树查找待分类文献中的每一个句子中出现的所有的字符串,取其中含有的属于初始分类字典中的最长的字符串作为最长公共子序列,最长公共子序列及其对应的类作为该一个句子的最终字符串及最终类,将一篇文献中出现频率最多的最终类作为其所属的类。本发明还公开了一种基于trie和LCS算法的文献分类系统。本发明省略了分词过程,以稳定的字符串为特征,准确度高,降低了对上下文的依赖。
-
公开(公告)号:CN106355628B
公开(公告)日:2019-07-05
申请号:CN201510420322.6
申请日:2015-07-16
IPC分类号: G06T11/60
摘要: 本发明公开了一种图文知识点标注方法和装置、图文标注的修正方法和系统。所述图文知识点标注方法包括:构建知识图谱知识节点标注模型;判断待标注图文单元的类型为文本文件或者图像文件;根据待标注图文单元的类型提取待标注图文单元中命名实体的显性关键特征的预处理特征,其中,所述预处理特征用于概括图文单元的隐含内容;基于所述知识节点标注模型标注图文单元隐含内容主题的知识点标签。本发明在细颗粒度上对图文资料所涉及的概念类命名实体及对象实例命名实体进行提取,并将提取的特征输入到知识图谱标注模型中,得出概括该图文单内容的多维的主题知识点标注。
-
公开(公告)号:CN114428781A
公开(公告)日:2022-05-03
申请号:CN202011068559.X
申请日:2020-09-30
IPC分类号: G06F16/23 , G06F16/2458 , G06F16/25 , G06F16/28 , G06F40/211 , G06F40/295 , G06F40/30
摘要: 本公开涉及关联关系更新技术领域,特别地涉及一种命名实体关联关系更新方法、系统、可读存储介质,方法包括:命名实体关联关系训练集生成与更新步骤S100,对原始语句中的命名实体进行标注而生成训练语句,基于不同文档的所有训练语句生成训练集;命名实体关联关系的统计语义规则挖掘步骤S200,从所述训练集中挖掘与已知的命名实体关联关系对应的顺序关系模式,基于所述顺序关系模式而生成候选命名实体关联关系;命名实体关联关系的生成与修正步骤S300,将所述候选命名实体关联关系展现给用户,获取用户确认所述候选命名实体关联关系是否为可信命名实体关联关系的操作;命名实体关联关系的存储步骤S400,存储所述可信命名实体关联关系。
-
公开(公告)号:CN109543023A
公开(公告)日:2019-03-29
申请号:CN201811147380.6
申请日:2018-09-29
IPC分类号: G06F16/335 , G06F16/35 , G06F16/9032
摘要: 本发明公开了一种基于trie和LCS算法的文献分类方法,包括以下步骤:步骤一、预编初始分类字典和初始排除字典;步骤二、将初始分类字典中的每一个字符串扩展得到扩展字符串,根据初始排除字典对得到的扩展字符串过滤后构建字典树;步骤三、调用字典树查找待分类文献中的每一个句子中出现的所有的字符串,取其中含有的属于初始分类字典中的最长的字符串作为最长公共子序列,最长公共子序列及其对应的类作为该一个句子的最终字符串及最终类,将一篇文献中出现频率最多的最终类作为其所属的类。本发明还公开了一种基于trie和LCS算法的文献分类系统。本发明省略了分词过程,以稳定的字符串为特征,准确度高,降低了对上下文的依赖。
-
公开(公告)号:CN106355628A
公开(公告)日:2017-01-25
申请号:CN201510420322.6
申请日:2015-07-16
IPC分类号: G06T11/60
摘要: 本发明公开了一种图文知识点标注方法和装置、图文标注的修正方法和系统。所述图文知识点标注方法包括:构建知识图谱知识节点标注模型;判断待标注图文单元的类型为文本文件或者图像文件;根据待标注图文单元的类型提取待标注图文单元中命名实体的显性关键特征的预处理特征,其中,所述预处理特征用于概括图文单元的隐含内容;基于所述知识节点标注模型标注图文单元隐含内容主题的知识点标签。本发明在细颗粒度上对图文资料所涉及的概念类命名实体及对象实例命名实体进行提取,并将提取的特征输入到知识图谱标注模型中,得出概括该图文单内容的多维的主题知识点标注。
-
公开(公告)号:CN106355627A
公开(公告)日:2017-01-25
申请号:CN201510420315.6
申请日:2015-07-16
IPC分类号: G06T11/60
摘要: 本发明公开了一种用于生成知识图谱的方法,包括生成初始知识图谱;判断图文单元的类型;以初始知识图谱框架为约束条件,基于图文单元的类型识别单一图文单元中的命名实体以及命名实体之间的关联关系;提取图文单元集合中新增命名实体和命名实体间新增的关联关系形成候选知识项;对候选知识项进行修正,根据修正后的候选知识项更新初始知识图谱。本发明可从一个基本的知识图谱框架和小的种子知识集合开始,利用计算机自动从海量的图文数据中发现、抽取、组织多种多样的丰富的命名实体间关联关系,经专家系统进行确认后,能够迅速而有效地构造精细化表达的一个知识图谱结构,从而使生成知识图谱的过程显著节省了大量的人力成本。
-
-
-
-
-