一种融合先验信息的命名实体链接方法
摘要:
本发明公开了一种融合先验信息的命名实体链接方法。该方法包括如下步骤:(1)从Wikipedia data dump,Freebase data dump提取字符串‑候选实体表、人名列表、地名列表;(2)将Wikipedia data dump中的每篇文章表示为词频/逆文档频率tf‑idf特征,并提取每个字符串相对于候选实体的通用性特征;(3)对实体提及进行问询拓展,使用(1)中的字符串‑候选实体表,为实体提及生成候选实体;(4)抽取实体提及所在文章的特征,得到文章的逆文档频率以及重要词碰撞率;(5)使用(2)、(4)所提取的特征,计算实体提及与其各个候选实体之间的关联程度,并将关联程度最高的作为实体链接结果。本发明突破了语料缺乏的限制,为用户提供了可靠的实体链接推荐结果,其中实体通用性特征加入了先验信息。
公开/授权文献
0/0