发明授权
- 专利标题: 一种融合先验信息的命名实体链接方法
-
申请号: CN201810103629.7申请日: 2018-02-01
-
公开(公告)号: CN108363688B公开(公告)日: 2020-04-28
- 发明人: 汤斯亮 , 杨希远 , 陈博 , 林升 , 吴飞 , 庄越挺
- 申请人: 浙江大学
- 申请人地址: 浙江省杭州市西湖区余杭塘路866号
- 专利权人: 浙江大学
- 当前专利权人: 浙江大学
- 当前专利权人地址: 浙江省杭州市西湖区余杭塘路866号
- 代理机构: 杭州求是专利事务所有限公司
- 代理商 傅朝栋; 张法高
- 主分类号: G06F40/205
- IPC分类号: G06F40/205 ; G06F40/284 ; G06N5/02
摘要:
本发明公开了一种融合先验信息的命名实体链接方法。该方法包括如下步骤:(1)从Wikipedia data dump,Freebase data dump提取字符串‑候选实体表、人名列表、地名列表;(2)将Wikipedia data dump中的每篇文章表示为词频/逆文档频率tf‑idf特征,并提取每个字符串相对于候选实体的通用性特征;(3)对实体提及进行问询拓展,使用(1)中的字符串‑候选实体表,为实体提及生成候选实体;(4)抽取实体提及所在文章的特征,得到文章的逆文档频率以及重要词碰撞率;(5)使用(2)、(4)所提取的特征,计算实体提及与其各个候选实体之间的关联程度,并将关联程度最高的作为实体链接结果。本发明突破了语料缺乏的限制,为用户提供了可靠的实体链接推荐结果,其中实体通用性特征加入了先验信息。
公开/授权文献
- CN108363688A 一种融合先验信息的命名实体链接方法 公开/授权日:2018-08-03