Invention Publication
- Patent Title: 一种基于机器学习及知识图谱的表关系识别方法
-
Application No.: CN202310999865.2Application Date: 2023-08-09
-
Publication No.: CN117077032APublication Date: 2023-11-17
- Inventor: 程宏斌 , 刘宏 , 强劲 , 王锟 , 毕珍 , 苏宁亚
- Applicant: 美林数据技术股份有限公司
- Applicant Address: 陕西省西安市高新区软件新城天谷八路528号国家电子商务示范基地六层
- Assignee: 美林数据技术股份有限公司
- Current Assignee: 美林数据技术股份有限公司
- Current Assignee Address: 陕西省西安市高新区软件新城天谷八路528号国家电子商务示范基地六层
- Agency: 陕西佳禾宏盛知识产权代理事务所
- Agent 高美化
- Main IPC: G06F18/243
- IPC: G06F18/243 ; G06F18/214 ; G06F16/36 ; G06F16/35 ; G06N3/0455 ; G06N3/042 ; G06N5/022

Abstract:
本发明公开了一种基于机器学习及知识图谱的表关系识别方法,包括以下步骤:S1、选出关联字段特征,S2、选取训练集,S3、建立模型,S4、确定分类结果,S5、构建图谱。该基于机器学习及知识图谱的表关系识别方法,通过将字段类型分为数值型、字符型、时间日期型和其他类型,处理完成后得到训练集样本,将样本划分为两类:主键和其他,最后基于随机森林模型对样本进行训练得到主外键识别模型,对识别出的主键,simBERT提取关系序列模式,不断优化获得各表关联关系,利用机器学习模型可以基于表字段特征自动识别各表中最疑似的主键,从而减少了人工参与评判不合理对识别结果的影响。
Information query