一种基于机器学习及知识图谱的表关系识别方法
Abstract:
本发明公开了一种基于机器学习及知识图谱的表关系识别方法,包括以下步骤:S1、选出关联字段特征,S2、选取训练集,S3、建立模型,S4、确定分类结果,S5、构建图谱。该基于机器学习及知识图谱的表关系识别方法,通过将字段类型分为数值型、字符型、时间日期型和其他类型,处理完成后得到训练集样本,将样本划分为两类:主键和其他,最后基于随机森林模型对样本进行训练得到主外键识别模型,对识别出的主键,simBERT提取关系序列模式,不断优化获得各表关联关系,利用机器学习模型可以基于表字段特征自动识别各表中最疑似的主键,从而减少了人工参与评判不合理对识别结果的影响。
Patent Agency Ranking
0/0