基于网络爬虫的地名数据库维护方法
摘要:
本发明公开了一种基于网络爬虫的地名数据库维护方法,主要包括两个部分:基于网络爬虫的空间敏感网页获取和网页文本中地名信息解析。具体步骤分为:基于Google搜索引擎服务的空间敏感网页获取;基于空间主题相关度的空间敏感网页过滤;基于DOM技术的网页解析;基于CRF模型的网页文本中地名识别;采用地名数据库匹配的方式,从网页文本中获取新地名;地名的空间位置信息解析。本发明的方法能有效解决当前地名数据库建设中非标准地名和小颗粒度地名缺乏、地名时效性较低和相对位置信息缺失、地名数据库更新维护周期长、成本高、效率低下等问题,可广泛应用于数字城市建设、空间位置服务、空间信息检索、自然语言处理等领域。
公开/授权文献
0/0