一种融合先验信息的命名实体链接方法

    公开(公告)号:CN108363688B

    公开(公告)日:2020-04-28

    申请号:CN201810103629.7

    申请日:2018-02-01

    申请人: 浙江大学

    摘要: 本发明公开了一种融合先验信息的命名实体链接方法。该方法包括如下步骤:(1)从Wikipedia data dump,Freebase data dump提取字符串‑候选实体表、人名列表、地名列表;(2)将Wikipedia data dump中的每篇文章表示为词频/逆文档频率tf‑idf特征,并提取每个字符串相对于候选实体的通用性特征;(3)对实体提及进行问询拓展,使用(1)中的字符串‑候选实体表,为实体提及生成候选实体;(4)抽取实体提及所在文章的特征,得到文章的逆文档频率以及重要词碰撞率;(5)使用(2)、(4)所提取的特征,计算实体提及与其各个候选实体之间的关联程度,并将关联程度最高的作为实体链接结果。本发明突破了语料缺乏的限制,为用户提供了可靠的实体链接推荐结果,其中实体通用性特征加入了先验信息。

    一种融合先验信息的命名实体链接方法

    公开(公告)号:CN108363688A

    公开(公告)日:2018-08-03

    申请号:CN201810103629.7

    申请日:2018-02-01

    申请人: 浙江大学

    IPC分类号: G06F17/27 G06N5/02

    摘要: 本发明公开了一种融合先验信息的命名实体链接方法。该方法包括如下步骤:(1)从Wikipedia data dump,Freebase data dump提取字符串-候选实体表、人名列表、地名列表;(2)将Wikipedia data dump中的每篇文章表示为词频/逆文档频率tf-idf特征,并提取每个字符串相对于候选实体的通用性特征;(3)对实体提及进行问询拓展,使用(1)中的字符串-候选实体表,为实体提及生成候选实体;(4)抽取实体提及所在文章的特征,得到文章的逆文档频率以及重要词碰撞率;(5)使用(2)、(4)所提取的特征,计算实体提及与其各个候选实体之间的关联程度,并将关联程度最高的作为实体链接结果。本发明突破了语料缺乏的限制,为用户提供了可靠的实体链接推荐结果,其中实体通用性特征加入了先验信息。

    一种基于知识库特征抽取的命名实体链接方法

    公开(公告)号:CN108304552A

    公开(公告)日:2018-07-20

    申请号:CN201810102597.9

    申请日:2018-02-01

    申请人: 浙江大学

    IPC分类号: G06F17/30 G06F17/22

    摘要: 本发明公开了一种基于知识库特征抽取的命名实体链接方法。该方法包括如下步骤:(1)从Freebase data dump中抽取具有指定特征的三元组条目,形成关系数据表,存入知识库;(2)设计复杂的规则,在知识库中搜寻若干个与实体提及关系紧密的Freebase Object作为候选实体;(3)采用基于统计的方法,设计并抽取实体提及与其候选实体的特征,并对上述特征进行Embedding化;(4)将抽取特征的Embedding作为一个多层的神经网络的输入,获取每个候选实体为目标实体的概率,并返回概率最高的候选实体的Freebase MID。本发明结合了基于复杂规则的候选生成技术和基于统计学习的候选排序技术,针对特定类型的命名实体,建立了一套适用于实体链接的处理框架,方便用户使用批处理的方式获取实体链接的结果。

    一种基于知识库特征抽取的命名实体链接方法

    公开(公告)号:CN108304552B

    公开(公告)日:2021-01-08

    申请号:CN201810102597.9

    申请日:2018-02-01

    申请人: 浙江大学

    摘要: 本发明公开了一种基于知识库特征抽取的命名实体链接方法。该方法包括如下步骤:(1)从Freebase data dump中抽取具有指定特征的三元组条目,形成关系数据表,存入知识库;(2)设计复杂的规则,在知识库中搜寻若干个与实体提及关系紧密的Freebase Object作为候选实体;(3)采用基于统计的方法,设计并抽取实体提及与其候选实体的特征,并对上述特征进行Embedding化;(4)将抽取特征的Embedding作为一个多层的神经网络的输入,获取每个候选实体为目标实体的概率,并返回概率最高的候选实体的Freebase MID。本发明结合了基于复杂规则的候选生成技术和基于统计学习的候选排序技术,针对特定类型的命名实体,建立了一套适用于实体链接的处理框架,方便用户使用批处理的方式获取实体链接的结果。