-
公开(公告)号:CN112215006A
公开(公告)日:2021-01-12
申请号:CN202011141016.6
申请日:2020-10-22
申请人: 上海交通大学
IPC分类号: G06F40/295 , G06F16/33 , G06F16/35
摘要: 本发明提供了一种机构命名实体归一化方法和系统,该方法包括:对学术机构信息数据进行筛选,去除错误数据后,得到预处理数据;对所述预处理数据进行去噪处理,得到机构命名实体归一化数据;通过构建的目标文本分类模型对机构命名实体归一化数据进行自动判别,输出判别结果,以得到机构命名实体归一化后的标准名称;根据所述标准名称,统计对应机构的论文数据。从而可以对每一个学术机构的论文数据进行统计,使得对学术机构的学术能力进行更加科学、直观地判别。
-
公开(公告)号:CN112215007B
公开(公告)日:2022-09-23
申请号:CN202011141040.X
申请日:2020-10-22
申请人: 上海交通大学
IPC分类号: G06F40/295 , G06F16/33 , G06F16/35
摘要: 本发明提供了一种基于LEAM模型的机构命名实体归一化方法和系统,包括:步骤S1:通过预设统计规则对所有的学术机构信息数据进行筛选,去除不符合预设条件的数据;步骤S2:在筛选过的数据中,根据正则表达式去除数据中存在的噪音;步骤S3:将去噪的数据按照类别和预设比例分为训练集、验证集和测试集;步骤S4:将训练集和验证集输入LEAM模型,训练出用于机构命名实体归一化的模型;步骤S5:将测试集输入训练好的模型中,测试模型效果并进行微调。通过本发明可以对每一个学术机构的论文发表数进行统计,从而可以更科学,更直观的对某个学术机构的学术能力进行判别。
-
公开(公告)号:CN112215006B
公开(公告)日:2022-08-09
申请号:CN202011141016.6
申请日:2020-10-22
申请人: 上海交通大学
IPC分类号: G06F40/295 , G06F16/33 , G06F16/35
摘要: 本发明提供了一种机构命名实体归一化方法和系统,该方法包括:对学术机构信息数据进行筛选,去除错误数据后,得到预处理数据;对所述预处理数据进行去噪处理,得到机构命名实体归一化数据;通过构建的目标文本分类模型对机构命名实体归一化数据进行自动判别,输出判别结果,以得到机构命名实体归一化后的标准名称;根据所述标准名称,统计对应机构的论文数据。从而可以对每一个学术机构的论文数据进行统计,使得对学术机构的学术能力进行更加科学、直观地判别。
-
公开(公告)号:CN112215007A
公开(公告)日:2021-01-12
申请号:CN202011141040.X
申请日:2020-10-22
申请人: 上海交通大学
IPC分类号: G06F40/295 , G06F16/33 , G06F16/35
摘要: 本发明提供了一种基于LEAM模型的机构命名实体归一化方法和系统,包括:步骤S1:通过预设统计规则对所有的学术机构信息数据进行筛选,去除不符合预设条件的数据;步骤S2:在筛选过的数据中,根据正则表达式去除数据中存在的噪音;步骤S3:将去噪的数据按照类别和预设比例分为训练集、验证集和测试集;步骤S4:将训练集和验证集输入LEAM模型,训练出用于机构命名实体归一化的模型;步骤S5:将测试集输入训练好的模型中,测试模型效果并进行微调。通过本发明可以对每一个学术机构的论文发表数进行统计,从而可以更科学,更直观的对某个学术机构的学术能力进行判别。
-
公开(公告)号:CN112733543A
公开(公告)日:2021-04-30
申请号:CN202110105747.3
申请日:2021-01-26
申请人: 上海交通大学
IPC分类号: G06F40/295
摘要: 本发明提供了一种基于文本编辑生成模型的机构命名实体归一化方法和系统,包括:步骤S1:对所有的学术机构信息数据进行筛选;步骤S2:对已筛选的数据利用正则表达式去除数据中存在的噪音;步骤S3:将处理好的数据按照类别和预设比例分为训练集、微调数据集和测试集;步骤S4:将微调数据集输入预训练好的bert模型,对bert模型进行微调,利用微调好的bert模型进行训练集机构名的表征,并训练出文本编辑生成模型来实现机构名称的归一化;步骤S5:将测试集输入训练好的文本编辑生成模型,测试模型效果并进行微调。通过本发明可以对每一个学术机构的论文发表数进行统计,可以更科学更直观的对某个学术机构的学术能力进行判别。
-
-
-
-