一种基于无词典的中文地址分词方法

    公开(公告)号:CN107329950B

    公开(公告)日:2021-01-05

    申请号:CN201710441735.1

    申请日:2017-06-13

    IPC分类号: G06F40/289

    摘要: 本发明公开了一种基于无词典的中文地址分词方法,包括以下步骤:1)通过统计得到训练语料中任意长度大于1小于等于8的字符串的词频,互信息,信息熵;2)通过正则表达式对地址字符串进行预处理;对输入地址字符串进行全切分;3)根据互信息和信息熵算法得到弧段花费最小的分词方案;4)根据置信度方法对该分词方案的字符串集合进行二次计算,判断该字符串是否为真实词条,得到最优的分词方案。

    一种基于本体模型的Geodatabase到地理OWL文件的转换方法

    公开(公告)号:CN106503068B

    公开(公告)日:2019-10-22

    申请号:CN201610870620.X

    申请日:2016-09-30

    IPC分类号: G06F16/11

    摘要: 本发明公开了一种基于本体模型的Geodatabase到地理OWL文件的转换方法,将计算机无法理解,且缺乏语义和无法共享的地理空间数据库中的信息转换成的人机可读的地理OWL文件,以便于实现地理信息的知识重用和共享,具体步骤如下:S1构建地理本体OWL文件的模型;S2加载GDAL驱动并根据GDB文件路径获取GDB数据源;S3利用GDAL解析GDB;读取GDB基本信息和GDB类个体;遍历图层读取图层信息和图层类个体;遍历要素读取要素信息和要素类个体;S4调用jena根据步骤S3中GDAL解析GDB获得的信息和S1中构建的地理本体OWL文件的模型,通过文件输出流生成地理OWL文件。

    一种地理本体要素实例属性相似度的计算方法

    公开(公告)号:CN107329955A

    公开(公告)日:2017-11-07

    申请号:CN201710522402.1

    申请日:2017-06-30

    IPC分类号: G06F17/27 G06F17/30

    摘要: 本发明公开了一种地理本体要素实例属性相似度的计算方法,包括以下步骤:将基础地理信息数据库转换为大规模地理本体库,构造地理本体;遍历地理本体构建关键属性对集合和辅助属性对集合;分别计算两个实例中关键属性对相似度和辅助属性相似度计算两个实例的综合相似度。该方法在计算要素实例相似度方面有更高的准确性。

    一种基于贝叶斯分词算法的中文地址语义标注方法

    公开(公告)号:CN106528526A

    公开(公告)日:2017-03-22

    申请号:CN201610880863.1

    申请日:2016-10-09

    IPC分类号: G06F17/27 G06F17/30

    CPC分类号: G06F17/2775 G06F16/29

    摘要: 本发明公开了一种基于贝叶斯分词算法的中文地址语义标注方法,包括步骤S1:预设置针对中文地址数据进行语义标注的标注关系表;步骤S2:获取预切分、标注好的训练语料;步骤S3:对训练语料进行统计学习得到词频词典、标注关系词典、标注模式表;步骤S4:输入待标注地址字符串进行全切分;步骤S5:根据词频词典及贝叶斯分词算法获取概率最大的分词方案;步骤S6:根据标注关系词典对分词方案进行标注得到标注结果。标注关系表设定了一个规范化的标注模板;通过统计学习训练语料获得了包含词频词典、标注关系词典以及标注模式表的数据库;根据前述训练数据库匹配得到标注好的具有语义信息的中文地址,快速准确地完成了针对中文地址数据的语义解析。

    一种地理本体要素实例属性相似度的计算方法

    公开(公告)号:CN107329955B

    公开(公告)日:2020-09-15

    申请号:CN201710522402.1

    申请日:2017-06-30

    IPC分类号: G06F16/36 G06F16/29 G06F40/30

    摘要: 本发明公开了一种地理本体要素实例属性相似度的计算方法,包括以下步骤:将基础地理信息数据库转换为大规模地理本体库,构造地理本体;遍历地理本体构建关键属性对集合和辅助属性对集合;分别计算两个实例中关键属性对相似度和辅助属性相似度计算两个实例的综合相似度。该方法在计算要素实例相似度方面有更高的准确性。

    一种基于无词典的中文地址分词方法

    公开(公告)号:CN107329950A

    公开(公告)日:2017-11-07

    申请号:CN201710441735.1

    申请日:2017-06-13

    IPC分类号: G06F17/27

    摘要: 本发明公开了一种基于无词典的中文地址分词方法,包括以下步骤:1)通过统计得到训练语料中任意长度大于1小于等于8的字符串的词频,互信息,信息熵;2)通过正则表达式对地址字符串进行预处理;对输入地址字符串进行全切分;3)根据互信息和信息熵算法得到弧段花费最小的分词方案;4)根据置信度方法对该分词方案的字符串集合进行二次计算,判断该字符串是否为真实词条,得到最优的分词方案。

    一种基于网页特征的正文信息抽取方法

    公开(公告)号:CN107247742A

    公开(公告)日:2017-10-13

    申请号:CN201710346591.1

    申请日:2017-05-17

    IPC分类号: G06F17/30

    摘要: 本发明涉及信息抽取技术领域,尤其涉及一种基于网页特征的正文信息抽取方法,它根据页面布局等特征将页面源码预处理行号和文本的集合,然后通过行文本阈值以及行间距阈值来提取页面正文部分,最后根据标点符号来优化提取结果。本方法对于不同类型的页面有较好的效果,具有一定的通用性。

    一种基于本体模型的Geodatabase到地理OWL文件的转换方法

    公开(公告)号:CN106503068A

    公开(公告)日:2017-03-15

    申请号:CN201610870620.X

    申请日:2016-09-30

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种基于本体模型的Geodatabase到地理OWL文件的转换方法,将计算机无法理解,且缺乏语义和无法共享的地理空间数据库中的信息转换成的人机可读的地理OWL文件,以便于实现地理信息的知识重用和共享,具体步骤如下:S1构建地理本体OWL文件的模型;S2加载GDAL驱动并根据GDB文件路径获取GDB数据源;S3利用GDAL解析GDB;读取GDB基本信息和GDB类个体;遍历图层读取图层信息和图层类个体;遍历要素读取要素信息和要素类个体;S4调用jena根据步骤S3中GDAL解析GDB获得的信息和S1中构建的地理本体OWL文件的模型,通过文件输出流生成地理OWL文件。

    一种基于贝叶斯分词算法的中文地址语义标注方法

    公开(公告)号:CN106528526B

    公开(公告)日:2019-05-28

    申请号:CN201610880863.1

    申请日:2016-10-09

    IPC分类号: G06F17/27 G06F16/35

    摘要: 本发明公开了一种基于贝叶斯分词算法的中文地址语义标注方法,包括步骤S1:预设置针对中文地址数据进行语义标注的标注关系表;步骤S2:获取预切分、标注好的训练语料;步骤S3:对训练语料进行统计学习得到词频词典、标注关系词典、标注模式表;步骤S4:输入待标注地址字符串进行全切分;步骤S5:根据词频词典及贝叶斯分词算法获取概率最大的分词方案;步骤S6:根据标注关系词典对分词方案进行标注得到标注结果。标注关系表设定了一个规范化的标注模板;通过统计学习训练语料获得了包含词频词典、标注关系词典以及标注模式表的数据库;根据前述训练数据库匹配得到标注好的具有语义信息的中文地址,快速准确地完成了针对中文地址数据的语义解析。

    一种基于规则的中文地址解析方法

    公开(公告)号:CN106528605A

    公开(公告)日:2017-03-22

    申请号:CN201610853820.4

    申请日:2016-09-27

    IPC分类号: G06F17/30 G06F17/27

    CPC分类号: G06F16/9537 G06F17/2765

    摘要: 一种基于规则的中文地址解析方法,其包括以下步骤:1)输入中文地址信息字符串;2)对于一条中文地址串address,从地址第一个字开始,到地址最后一个字结束,每一个字与特征字集合Q进行一一对应匹配,若匹配成功,则记录地址信息中该特征字P与其位置i,地址遍历结束后,将每个地址信息中存在的特征字P与其对应的位置i放入链表ArrayList中保存;3)若链表ArrayList的大小为size,从ArrayList中的第一个值j=1开始,到j=size结束,提取出链表中所有特征字,然后从j=1到size-1循环,若特征字j到j+1的转移概率大于特定阀值d时,则转移,此时提取出j所对应的特征字Pi和位置值i,在address中位置i处切分,如此循环,直到判断完最后一个特征字是否切分。