发明授权
CN102253972B 基于网络爬虫的地名数据库维护方法
失效 - 权利终止
- 专利标题: 基于网络爬虫的地名数据库维护方法
- 专利标题(英): Web crawler-based geographical name database maintenance method
-
申请号: CN201110158956.0申请日: 2011-06-14
-
公开(公告)号: CN102253972B公开(公告)日: 2013-05-22
- 发明人: 张雪英 , 张春菊 , 杜超利 , 朱少楠
- 申请人: 南京师范大学
- 申请人地址: 江苏省南京市栖霞区文苑路1号
- 专利权人: 南京师范大学
- 当前专利权人: 南京师范大学
- 当前专利权人地址: 江苏省南京市栖霞区文苑路1号
- 代理机构: 南京知识律师事务所
- 代理商 汪旭东
- 主分类号: G06F17/30
- IPC分类号: G06F17/30
摘要:
本发明公开了一种基于网络爬虫的地名数据库维护方法,主要包括两个部分:基于网络爬虫的空间敏感网页获取和网页文本中地名信息解析。具体步骤分为:基于Google搜索引擎服务的空间敏感网页获取;基于空间主题相关度的空间敏感网页过滤;基于DOM技术的网页解析;基于CRF模型的网页文本中地名识别;采用地名数据库匹配的方式,从网页文本中获取新地名;地名的空间位置信息解析。本发明的方法能有效解决当前地名数据库建设中非标准地名和小颗粒度地名缺乏、地名时效性较低和相对位置信息缺失、地名数据库更新维护周期长、成本高、效率低下等问题,可广泛应用于数字城市建设、空间位置服务、空间信息检索、自然语言处理等领域。
公开/授权文献
- CN102253972A 基于网络爬虫的地名数据库维护方法 公开/授权日:2011-11-23