一种基于定义的学科概念知识体系自动构建方法与系统

    公开(公告)号:CN117852637B

    公开(公告)日:2024-05-24

    申请号:CN202410256766.X

    申请日:2024-03-07

    摘要: 本发明涉及一种基于定义的学科概念知识体系自动构建方法与系统,用于提升机器理解、计算与推理的准确性,包括:建立概念关系的分类体系,包括学科概念的类型以及概念间的关系类型;基于辞典、公开主题词表等数据源获取核心概念集及其定义集,每个核心概念称为目标概念;使用自然语言处理方法依次从定义集中自动提取相关概念以及概念关系;基于概念关系的分类体系,通过计算词语相似度标准化概念关系,获得三元组结构的集合;基于三元组结构的集合,重构学科概念的语义网络,形成更加系统的、结构化的学科概念体系。这有助于科学理解与正确使用概念,也有利于学科知识的智能理解、计算与推理。

    基于预训练语言模型与文本特征融合的空间关系抽取方法

    公开(公告)号:CN114528368B

    公开(公告)日:2023-08-25

    申请号:CN202111338542.6

    申请日:2021-11-12

    摘要: 本发明公开了基于预训练语言模型和文本特征融合的空间关系抽取方法,首先对文本数据进行清洗和预处理,利用预训练语言模型实现单条或批量文本数据向低维字向量的转化,保证不同长度的文本数据转化而来的低维字向量维度能保持一致;然后由前馈神经网络构成的二分类器和字向量预测文本中地理实体、空间关系特征词的开始与结束位置,并依据开始、结束位置和字向量表示,通过池化方法来生成字符跨度表示;最后依据字符跨度表示来进行地理实体识别和空间关系分类两项任务,进而实现文本空间关系抽取。本发明很好地顾及了地理实体类型、空间关系特征词与空间关系抽取的关联关系,实现了面向文本的三元组形式空间关系抽取,具有较好的拓展性和普适性。

    面向多语种的通用地名语义相似度计算方法及其应用

    公开(公告)号:CN111325235B

    公开(公告)日:2023-04-25

    申请号:CN202010058317.6

    申请日:2020-01-19

    摘要: 本发明公开了一种面向多语种的通用地名语义相似度计算方法及其应用。通过分析多种语种地名的构词特点、隶属关系和空间位置等语义特征,发现地名的类别、字符串和空间位置特征容易获取且能够有效地区分地名。由此,本发明根据这三种地名语义特征,分别构建地名类别相似度模型、地名字符串相似度模型和地名空间邻近度模型。然后,综合考虑地名类别相似度、字符串相似度和空间邻近度,提出一种面向多语种的通用地名语义相似度计算方法。相比于只考虑地名字符串或空间几何特征的地名相似度计算方法,本发明提供的方法能够显著提高地名相似度计算的准确性,可以更好地满足大数据环境下多语种地名的查询、匹配和共享服务等应用需求。

    基于百科知识库和词向量的中文地名语义消歧方法

    公开(公告)号:CN110781670B

    公开(公告)日:2023-03-03

    申请号:CN201911029961.4

    申请日:2019-10-28

    摘要: 本发明公开了一种基于百科知识库和词向量的中文地名语义消歧方法,包括:预训练词向量模型的生成;基于Bi‑LSTM与CRF集成的地名识别模型的生成;待消歧地名所在文本中地名识别和词向量表示;歧义地名义项名及其义项内容获取;歧义地名义项内容中的地名识别和词向量表示;歧义地名所在文本中的地名列表词向量与歧义地名义项内容中的地名列表词向量进行相似度计算;歧义地名的义项频率统计;歧义地名最可能指代的地理位置的综合评估。本发明能够有效解决位置服务中同一地名可能对应多个地理位置和同一位置可能有多个描述名称的问题,适应于互联网+时代背景下文本描述中地名分布离散、稀疏的情况,满足智能化位置服务、全息位置地图等的迫切需求。

    基于CHI特征选取的文本事件分类方法

    公开(公告)号:CN104965867A

    公开(公告)日:2015-10-07

    申请号:CN201510310162.X

    申请日:2015-06-08

    IPC分类号: G06F17/30

    CPC分类号: G06F16/36 G06F16/353

    摘要: 本发明公开了一种基于CHI特征选取的文本事件分类方法,包括针对训练语料的分类模型训练过程和文本分类过程。该方法通过分析中文文本事件的语言描述特征,选取CHI值作为主题特征向量,针对选取的训练语料形成特征文件和训练模版,最终实现文本事件信息的分类。其中,模型训练过程包括以下步骤:(1)文本训练语料选取;(2)文本语料预处理;(3)类别特征选取,生成特征文件集合;(4)文本特征向量生成及归一化处理,生成特征向量文件;(5)SVM模型训练。文本分类过程与模型训练过程类似。本发明采用的方法可广泛地应用于中文文本数据挖掘的识别、分类、解析与监测过程,能够有效提升中文文本自然语言处理的解析效率与解析精度。

    基于网络爬虫的地名数据库维护方法

    公开(公告)号:CN102253972B

    公开(公告)日:2013-05-22

    申请号:CN201110158956.0

    申请日:2011-06-14

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种基于网络爬虫的地名数据库维护方法,主要包括两个部分:基于网络爬虫的空间敏感网页获取和网页文本中地名信息解析。具体步骤分为:基于Google搜索引擎服务的空间敏感网页获取;基于空间主题相关度的空间敏感网页过滤;基于DOM技术的网页解析;基于CRF模型的网页文本中地名识别;采用地名数据库匹配的方式,从网页文本中获取新地名;地名的空间位置信息解析。本发明的方法能有效解决当前地名数据库建设中非标准地名和小颗粒度地名缺乏、地名时效性较低和相对位置信息缺失、地名数据库更新维护周期长、成本高、效率低下等问题,可广泛应用于数字城市建设、空间位置服务、空间信息检索、自然语言处理等领域。

    基于层次空间参考模型的城市地址编码方法

    公开(公告)号:CN102254291A

    公开(公告)日:2011-11-23

    申请号:CN201110158783.2

    申请日:2011-06-14

    IPC分类号: G06Q90/00

    摘要: 本发明公开了一种基于层次空间参考模型的城市地址编码方法。该方法具体分为四个步骤:形成地理要素类型码、利用不同计算规则形成方位码、找出目标物到城市中心的最短距离作为距离码、随机生成要编码地理要素的随机码。本发明的方法能够综合反映城市地理实体的要素类型、几何特征、地理空间位置、空间参照方位和相对城市中心距离等空间特性,方便快捷地判断地理实体在城市中的具体方位和距离城市中心的距离,可广泛应用到城市道路交通、城市规划、公安消防、城市基础设施建设、邮政通信等领域。

    基于网络爬虫的地名数据库维护方法

    公开(公告)号:CN102253972A

    公开(公告)日:2011-11-23

    申请号:CN201110158956.0

    申请日:2011-06-14

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种基于网络爬虫的地名数据库维护方法,主要包括两个部分:基于网络爬虫的空间敏感网页获取和网页文本中地名信息解析。具体步骤分为:基于Google搜索引擎服务的空间敏感网页获取;基于空间主题相关度的空间敏感网页过滤;基于DOM技术的网页解析;基于CRF模型的网页文本中地名识别;采用地名数据库匹配的方式,从网页文本中获取新地名;地名的空间位置信息解析。本发明的方法能有效解决当前地名数据库建设中非标准地名和小颗粒度地名缺乏、地名时效性较低和相对位置信息缺失、地名数据库更新维护周期长、成本高、效率低下等问题,可广泛应用于数字城市建设、空间位置服务、空间信息检索、自然语言处理等领域。

    面向地址编码的中文地址语义解析方法

    公开(公告)号:CN101393544A

    公开(公告)日:2009-03-25

    申请号:CN200810156588.4

    申请日:2008-10-07

    IPC分类号: G06F17/22 G06F17/27 G06F17/30

    摘要: 本发明公开了一种面向地址编码的中文地址语义解析方法,其步骤如下:第一步:根据样本数据,构建地址特征字库;a.建立样本数据;b.筛选特征字;c.筛选附属特征字;所筛选的特征字和附属特征字构成了特征字库;第二步:根据特征字库,按照地址表示规则,将中文地址转换为数字形式的字符串;第三步:构建地址解析规则库;第四步:语义解析,包括:地址表示,将原始地址转换为数字表示、地址解析,将数字表示的地址拆分为地址要素;地址还原,将数字表示的解析结果还原为与原始地址对应的字符串。

    学科知识框架自动构建方法、装置、设备及存储介质

    公开(公告)号:CN117808085B

    公开(公告)日:2024-05-07

    申请号:CN202410224999.1

    申请日:2024-02-29

    IPC分类号: G06N5/02 G06N5/022

    摘要: 本发明公开了一种学科知识框架自动构建方法,所述方法包括:1)基于学科逻辑搭建符合认知思维的学科通用知识框架;2)获取具体学科领域的专业图书;3)自动提取专业图书的知识组织逻辑与结构;4)基于学科通用知识框架重构专业图书的知识组织结构,获得多个初始的知识框架;5)融合初始知识框架,构建出具有完整性、规范性、一致性、逻辑性的学科知识框架,实现全局视角下对学科知识的组织。本发明提供了一种构建全面且系统的学科知识框架的方法,并依据新知识框架融合而动态扩充,有利于学科知识不断完善、关联性检索与新知识的发现,为学科知识组织与管理提供了一种具有全局视角的方法。