-
公开(公告)号:CN109543023A
公开(公告)日:2019-03-29
申请号:CN201811147380.6
申请日:2018-09-29
IPC分类号: G06F16/335 , G06F16/35 , G06F16/9032
摘要: 本发明公开了一种基于trie和LCS算法的文献分类方法,包括以下步骤:步骤一、预编初始分类字典和初始排除字典;步骤二、将初始分类字典中的每一个字符串扩展得到扩展字符串,根据初始排除字典对得到的扩展字符串过滤后构建字典树;步骤三、调用字典树查找待分类文献中的每一个句子中出现的所有的字符串,取其中含有的属于初始分类字典中的最长的字符串作为最长公共子序列,最长公共子序列及其对应的类作为该一个句子的最终字符串及最终类,将一篇文献中出现频率最多的最终类作为其所属的类。本发明还公开了一种基于trie和LCS算法的文献分类系统。本发明省略了分词过程,以稳定的字符串为特征,准确度高,降低了对上下文的依赖。
-
公开(公告)号:CN115248863A
公开(公告)日:2022-10-28
申请号:CN202110455641.6
申请日:2021-04-26
摘要: 本发明公开一种基于知识图谱的油气地质评价方法及系统。所述方法包括:构建油气地质知识图谱;提取待评价对象的关键词;基于油气地质知识图谱对关键词进行语义搜索,得到匹配信息;将匹配信息输入预建立的油气地质评价推荐模型,得到预定数量的权重排名靠前的匹配信息;基于所述权重排名靠前的匹配信息对待评价对象进行油气地质评价。所述系统包括对应实现上述步骤的油气地质知识图谱构建模块、关键词提取模块、第一匹配信息获取模块、第二匹配信息获取模块和油气地质评价模块。根据本发明,能够快速地对待评价对象进行油气地质评价。
-
公开(公告)号:CN106355628B
公开(公告)日:2019-07-05
申请号:CN201510420322.6
申请日:2015-07-16
IPC分类号: G06T11/60
摘要: 本发明公开了一种图文知识点标注方法和装置、图文标注的修正方法和系统。所述图文知识点标注方法包括:构建知识图谱知识节点标注模型;判断待标注图文单元的类型为文本文件或者图像文件;根据待标注图文单元的类型提取待标注图文单元中命名实体的显性关键特征的预处理特征,其中,所述预处理特征用于概括图文单元的隐含内容;基于所述知识节点标注模型标注图文单元隐含内容主题的知识点标签。本发明在细颗粒度上对图文资料所涉及的概念类命名实体及对象实例命名实体进行提取,并将提取的特征输入到知识图谱标注模型中,得出概括该图文单内容的多维的主题知识点标注。
-
公开(公告)号:CN118364143A
公开(公告)日:2024-07-19
申请号:CN202310107362.X
申请日:2023-01-19
IPC分类号: G06F16/903 , G06F16/35
摘要: 本发明提供了一种日期识别方法、装置、存储介质及电子设备,涉及日期识别技术领域,所述方法包括:从待识别文本中获取日期字符串;其中,所述日期字符串为纯数字字符串;对所述日期字符串进行解析,获得所述日期字符串中的年、月、日作为对所述待识别文本的日期识别结果。本发明提供的技术方案,能够进行更细粒度的日期识别,从而满足实际的生产应用需求。
-
公开(公告)号:CN106355628A
公开(公告)日:2017-01-25
申请号:CN201510420322.6
申请日:2015-07-16
IPC分类号: G06T11/60
摘要: 本发明公开了一种图文知识点标注方法和装置、图文标注的修正方法和系统。所述图文知识点标注方法包括:构建知识图谱知识节点标注模型;判断待标注图文单元的类型为文本文件或者图像文件;根据待标注图文单元的类型提取待标注图文单元中命名实体的显性关键特征的预处理特征,其中,所述预处理特征用于概括图文单元的隐含内容;基于所述知识节点标注模型标注图文单元隐含内容主题的知识点标签。本发明在细颗粒度上对图文资料所涉及的概念类命名实体及对象实例命名实体进行提取,并将提取的特征输入到知识图谱标注模型中,得出概括该图文单内容的多维的主题知识点标注。
-
公开(公告)号:CN106355627A
公开(公告)日:2017-01-25
申请号:CN201510420315.6
申请日:2015-07-16
IPC分类号: G06T11/60
摘要: 本发明公开了一种用于生成知识图谱的方法,包括生成初始知识图谱;判断图文单元的类型;以初始知识图谱框架为约束条件,基于图文单元的类型识别单一图文单元中的命名实体以及命名实体之间的关联关系;提取图文单元集合中新增命名实体和命名实体间新增的关联关系形成候选知识项;对候选知识项进行修正,根据修正后的候选知识项更新初始知识图谱。本发明可从一个基本的知识图谱框架和小的种子知识集合开始,利用计算机自动从海量的图文数据中发现、抽取、组织多种多样的丰富的命名实体间关联关系,经专家系统进行确认后,能够迅速而有效地构造精细化表达的一个知识图谱结构,从而使生成知识图谱的过程显著节省了大量的人力成本。
-
公开(公告)号:CN109543023B
公开(公告)日:2020-09-08
申请号:CN201811147380.6
申请日:2018-09-29
IPC分类号: G06F16/335 , G06F16/35 , G06F16/9032
摘要: 本发明公开了一种基于trie和LCS算法的文献分类方法,包括以下步骤:步骤一、预编初始分类字典和初始排除字典;步骤二、将初始分类字典中的每一个字符串扩展得到扩展字符串,根据初始排除字典对得到的扩展字符串过滤后构建字典树;步骤三、调用字典树查找待分类文献中的每一个句子中出现的所有的字符串,取其中含有的属于初始分类字典中的最长的字符串作为最长公共子序列,最长公共子序列及其对应的类作为该一个句子的最终字符串及最终类,将一篇文献中出现频率最多的最终类作为其所属的类。本发明还公开了一种基于trie和LCS算法的文献分类系统。本发明省略了分词过程,以稳定的字符串为特征,准确度高,降低了对上下文的依赖。
-
公开(公告)号:CN114428781A
公开(公告)日:2022-05-03
申请号:CN202011068559.X
申请日:2020-09-30
IPC分类号: G06F16/23 , G06F16/2458 , G06F16/25 , G06F16/28 , G06F40/211 , G06F40/295 , G06F40/30
摘要: 本公开涉及关联关系更新技术领域,特别地涉及一种命名实体关联关系更新方法、系统、可读存储介质,方法包括:命名实体关联关系训练集生成与更新步骤S100,对原始语句中的命名实体进行标注而生成训练语句,基于不同文档的所有训练语句生成训练集;命名实体关联关系的统计语义规则挖掘步骤S200,从所述训练集中挖掘与已知的命名实体关联关系对应的顺序关系模式,基于所述顺序关系模式而生成候选命名实体关联关系;命名实体关联关系的生成与修正步骤S300,将所述候选命名实体关联关系展现给用户,获取用户确认所述候选命名实体关联关系是否为可信命名实体关联关系的操作;命名实体关联关系的存储步骤S400,存储所述可信命名实体关联关系。
-
公开(公告)号:CN109492092A
公开(公告)日:2019-03-19
申请号:CN201811147398.6
申请日:2018-09-29
申请人: 北明智通(北京)科技有限公司
IPC分类号: G06F16/35
摘要: 本发明公开了一种基于LDA主题模型的文献分类方法,包括以下步骤:步骤一、预编初始监督字典,初始监督字典里的词包括多个类,并且与LDA主题模型的主题一一对应;步骤二、获取待分类文献中的所有的词,并计算每个词属于每个主题的概率,获得聚类字典;步骤三、根据聚类字典组成新的监督字典;步骤四、查找每篇待分类文献所包含的新的监督字典中的词所对应的主题,将出现的词最多的主题作为该篇文献的主题,完成对待分类文献的分类。本发明还公开了一种基于LDA主题模型的文献分类系统。本发明的方法既保持了规则分类方法的准确性,又具有LDA的联想聚类能力,分类结果准确,工程量小。
-
-
-
-
-
-
-
-