-
公开(公告)号:CN114297314B
公开(公告)日:2024-08-06
申请号:CN202110629961.9
申请日:2021-06-07
Applicant: 北京大学
Abstract: 本发明涉及一种增量交互式概念模型与数据模式智能映射方法及系统,属于领域知识图谱模型构建与演化技术领域,所述方法包括以下步骤:S1、实体映射,即把字段的语义和属性的语义进行映射;S2、关系映射,即把所述字段的语义和关系的语义进行映射;S3、实例生成,即根据实体映射和关系映射结果,对数据表的记录实例化,并在生成实例时进行冲突检测与处理;S4、根据关系映射结果,生成实例之间的关联关系。本发明提供的方法及系统能够结合机器智能推荐,采用多种可视化方式呈现复杂映射关系,人机协同地完成概念模型与数据模式的映射,并基于人工反馈进行推荐算法迭代优化,从而支持实例模型的构建,以及实例模型的增量演化。
-
公开(公告)号:CN114297395B
公开(公告)日:2024-07-30
申请号:CN202110677637.4
申请日:2021-06-18
Applicant: 北京大学
IPC: G06F16/36 , G06F8/61 , G06F16/182 , G06F11/36 , G06F9/50
Abstract: 本发明涉及一种基于负载均衡的知识图谱分布式海量数据导入方法,属于知识图谱数据导入技术领域,所述方法包括以下步骤:S1、搭建Spark分布式计算集群;S2、解决Janusgraph与Spark的jar包依赖冲突和版本冲突,使用SparkGraphComputer接口进行连接测试;S3、调研Spark进行图数据批量导入作业所擅长处理的输入文件格式,按照所述文件格式生成数据;S4、根据数据导入完整性和数据导入速度调整对Spark集群worker节点的资源分配,优化导入速度;S5、对数据中的超级节点进行切分和负载均衡,加速对超级节点数据的导入。本发明提供的方法通过分布式计算能够大幅度提升数据导入效率,通过基于节点切分的负载均衡方法使得对于超级节点数据导入实现并行化,最终达到对于超级节点数据的高效导入。
-
公开(公告)号:CN114297173B
公开(公告)日:2024-07-30
申请号:CN202110677218.0
申请日:2021-06-18
Applicant: 北京大学
Abstract: 本发明公开了一种面向大规模海量数据的知识图谱构建方法和系统,方法包括:S100、基于docker‑compose和Apache Hadoop技术,采用Master‑Slave结构搭建各分布式集群,为图数据库提供分布式存储、索引和计算,各分布式集群包括分布式存储集群、分布式索引集群和分布式计算集群;S200、使用图数据库和文档型数据库对海量知识图谱数据进行联合存储与检索,实现海量知识图谱的构建。本发明通过docker‑compose技术实现集群的快速部署和可定制搭建,利用图数据库和文档型数据库各自在相关检索场景下的优势,大大提高海量数据背景下的知识图谱构建与检索效率。
-
公开(公告)号:CN117521802A
公开(公告)日:2024-02-06
申请号:CN202311517351.5
申请日:2023-11-14
Applicant: 北京大学
Abstract: 本申请提供一种融合预训练语言模型的知识抽取方法及系统,涉及自然语言处理技术领域。通过获取应用预训练语言模型对知识抽取对象进行序列标注和实体类别分类的生成式输出,并应用超参平滑该生成式输出的边界,得到知识浓度矩阵,进一步根据知识浓度矩阵、文本长度特征矩阵和应用知识抽取模型对知识抽取对象进行知识抽取得到的第一知识抽取结果,确定知识抽取对象对应的第二知识抽取结果,利用预训练语言模型增强知识抽取模型的性能,提高知识抽取的准确性。
-
公开(公告)号:CN114297350A
公开(公告)日:2022-04-08
申请号:CN202110630148.3
申请日:2021-06-07
Applicant: 北京大学
IPC: G06F16/332 , G06F16/36 , G06F40/211 , G06F40/216 , G06F40/247 , G06F40/289 , G06F40/30 , G06K9/62 , G06N3/02
Abstract: 本发明公开了一种面向自然语言的城市领域知识模型查询方法和装置,方法包括:S100、基于城市领域知识模型,对用户输入的自然语言问题进行解析,解析之后,经过与用户迭代式交互,构建自然语言问题的词素集合;S200、基于词素集合和智慧城市领域知识模型,通过隐马模型查询图生成和隐马模型查询图排序,或者通过迭代式查询图生成和迭代式查询图排序,得到最符合自然语言问题的查询子图;S300、将查询子图与预设的模板进行筛选匹配,得到自然语言问题的答案,预设的模板为基于自然语言问题的各类型预设的查询模板。本发明利用隐马模型查询和迭代式查询推测用户问句的领域知识模型查询子图,并查询答案反馈给用户,提高了检索的准确性和检索的效率。
-
公开(公告)号:CN114297314A
公开(公告)日:2022-04-08
申请号:CN202110629961.9
申请日:2021-06-07
Applicant: 北京大学
Abstract: 本发明涉及一种增量交互式概念模型与数据模式智能映射方法及系统,属于领域知识图谱模型构建与演化技术领域,所述方法包括以下步骤:S1、实体映射,即把字段的语义和属性的语义进行映射;S2、关系映射,即把所述字段的语义和关系的语义进行映射;S3、实例生成,即根据实体映射和关系映射结果,对数据表的记录实例化,并在生成实例时进行冲突检测与处理;S4、根据关系映射结果,生成实例之间的关联关系。本发明提供的方法及系统能够结合机器智能推荐,采用多种可视化方式呈现复杂映射关系,人机协同地完成概念模型与数据模式的映射,并基于人工反馈进行推荐算法迭代优化,从而支持实例模型的构建,以及实例模型的增量演化。
-
公开(公告)号:CN114297173A
公开(公告)日:2022-04-08
申请号:CN202110677218.0
申请日:2021-06-18
Applicant: 北京大学
Abstract: 本发明公开了一种面向大规模海量数据的知识图谱构建方法和系统,方法包括:S100、基于docker‑compose和Apache Hadoop技术,采用Master‑Slave结构搭建各分布式集群,为图数据库提供分布式存储、索引和计算,各分布式集群包括分布式存储集群、分布式索引集群和分布式计算集群;S200、使用图数据库和文档型数据库对海量知识图谱数据进行联合存储与检索,实现海量知识图谱的构建。本发明通过docker‑compose技术实现集群的快速部署和可定制搭建,利用图数据库和文档型数据库各自在相关检索场景下的优势,大大提高海量数据背景下的知识图谱构建与检索效率。
-
公开(公告)号:CN114090783A
公开(公告)日:2022-02-25
申请号:CN202111202752.2
申请日:2021-10-15
Applicant: 北京大学
Abstract: 本发明涉及一种异构知识图谱融合方法及系统,针对现有技术存在着单一结构信息难以区分相同概念下的不同实体以及有限的训练数据限制了基于知识图谱嵌入方法的实体嵌入表示学习准确性等问题,本发明提供一种融合结构信息与属性信息的异构知识图谱融合方法,本发明的效果在于,充分利用图谱中的两种信息:实体结构和实体属性,通过知识表示学习模型得到基于结构的实体表示向量,通过基于共享注意力机制的孪生神经网络模型来学习基于实体属性的实体表示。每次迭代两种信息找到的最佳匹配都打上标记,作为新标记数据补充到训练集中,使得两种信息的模型相互辅助,迭代增强,最终得到准确度较高的实体对齐结果。
-
公开(公告)号:CN107220297B
公开(公告)日:2020-11-20
申请号:CN201710301051.1
申请日:2017-05-02
Applicant: 北京大学
IPC: G06F16/951 , G06F16/955 , G06F9/48 , G06F9/50
Abstract: 本发明提供面向软件项目的多源异构数据自动收集方法及系统,该系统包括:多任务多线程爬取模块,用于对多个数据爬取任务进行统一的调度,并对不同类型的数据实现不同的爬取方法,以根据不同数据类型的数据入口地址自动调用不同的爬取方法对不同类型的数据爬取任务进行数据爬取;多源异构软件项目数据自动收集模块,用于根据用户输入的软件项目名称及URL自动化探测该软件项目数据的数据类型及其对应的数据入口地址,并根据已知的不同数据类型的数据入口地址创建其对应的数据爬取任务,在所述多任务多线程爬取模块中调用不同的爬取方法对数据进行收集;数据解析存储模块,用于对上述收集的数据进行解析并存储到数据库中。
-
公开(公告)号:CN106649557B
公开(公告)日:2020-10-20
申请号:CN201610984538.X
申请日:2016-11-09
Applicant: 北京大学(天津滨海)新一代信息技术研究院
IPC: G06F16/31 , G06F16/35 , G06F40/30 , G06F16/951
Abstract: 本发明公开了一种缺陷报告与邮件列表语义关联挖掘方法。本方法为:1)对获取的目标项目的缺陷报告与邮件列表进行解析,得到缺陷报告的堆栈信息、代码片段、正文文本和邮件列表的堆栈信息、代码片段、正文文本;2)文档显式语义关联挖掘单元根据解析结果识别缺陷报告和邮件列表之间的显式语义关联,包括引用关联和共同代码元素关联;3)文档隐式语义关联挖掘单元根据解析结果识别缺陷报告和邮件列表之间的隐式语义关联,包括相似关联和潜在语义关联。本发明有利于高效地定位相关的缺陷报告与邮件列表,帮助开发人员更好地复用软件资源。
-
-
-
-
-
-
-
-
-