一种用于生成知识图谱的方法及系统

    公开(公告)号:CN106355627A

    公开(公告)日:2017-01-25

    申请号:CN201510420315.6

    申请日:2015-07-16

    IPC分类号: G06T11/60

    摘要: 本发明公开了一种用于生成知识图谱的方法,包括生成初始知识图谱;判断图文单元的类型;以初始知识图谱框架为约束条件,基于图文单元的类型识别单一图文单元中的命名实体以及命名实体之间的关联关系;提取图文单元集合中新增命名实体和命名实体间新增的关联关系形成候选知识项;对候选知识项进行修正,根据修正后的候选知识项更新初始知识图谱。本发明可从一个基本的知识图谱框架和小的种子知识集合开始,利用计算机自动从海量的图文数据中发现、抽取、组织多种多样的丰富的命名实体间关联关系,经专家系统进行确认后,能够迅速而有效地构造精细化表达的一个知识图谱结构,从而使生成知识图谱的过程显著节省了大量的人力成本。

    基于LDA主题模型的文献分类方法和系统

    公开(公告)号:CN109492092A

    公开(公告)日:2019-03-19

    申请号:CN201811147398.6

    申请日:2018-09-29

    IPC分类号: G06F16/35

    摘要: 本发明公开了一种基于LDA主题模型的文献分类方法,包括以下步骤:步骤一、预编初始监督字典,初始监督字典里的词包括多个类,并且与LDA主题模型的主题一一对应;步骤二、获取待分类文献中的所有的词,并计算每个词属于每个主题的概率,获得聚类字典;步骤三、根据聚类字典组成新的监督字典;步骤四、查找每篇待分类文献所包含的新的监督字典中的词所对应的主题,将出现的词最多的主题作为该篇文献的主题,完成对待分类文献的分类。本发明还公开了一种基于LDA主题模型的文献分类系统。本发明的方法既保持了规则分类方法的准确性,又具有LDA的联想聚类能力,分类结果准确,工程量小。