一种基于逻辑上下文学习的时序知识图谱预测方法

    公开(公告)号:CN119962677A

    公开(公告)日:2025-05-09

    申请号:CN202510029185.7

    申请日:2025-01-08

    Applicant: 贵州大学

    Abstract: 本发明公开了一种基于逻辑上下文学习的时序知识图谱预测方法,涉及知识图谱领域,包括步骤1、在已知的时序知识图谱中进行基于时间的随机游走得到符合时间约束的时间随机游走路径;步骤2、将得到的符合时间约束的时间随机游走路径抽象为时间逻辑规则;步骤3、计算抽象出的时间逻辑规则的支持度和置信度;步骤4、根据需要预测事件中的关系找到对应的时间逻辑规则并根据支持度对规则进行过滤;步骤5、将过滤后的规则应用于时序知识图谱得到预测尾实体的候选集;步骤6、根据固定格式,把历史事件和候选集转换为输入大语言模型的逻辑上下文;步骤7、大语言模型根据输入的逻辑上下文,重排候选集,预测未来发生事件中可能的尾实体。

    结合提示学习和Qwen大语言模型的裁判文书摘要方法

    公开(公告)号:CN119203968A

    公开(公告)日:2024-12-27

    申请号:CN202411276783.6

    申请日:2024-09-12

    Applicant: 贵州大学

    Abstract: 本发明提供结合提示学习和Qwen大语言模型的裁判文书方法,包括:运用文本解析方法,提取裁判文书数据集中独特结构信息的关键特征词及对应内容;以提示学习为载体,构建包含训练集独特结构信息的提示模板;将所述训练集与所述提示模板相结合,通过所述Qwen大语言模型的微调操作,得到一个针对裁判文书摘要任务的基准大语言模型;使用所述提示模板结合新接受的待处理的裁判文书,构建成问答对数据格式,再利用所述基准大语言模型,自动生成裁判文书摘要,本发明保证在初步阶段不丢失裁判文书关键信息,避免为了减少上下文长度而抽取文本却导致某些关键信息丢失的问题;并且由于提示模板的辅助,能够进一步加强对裁判文书关键信息的感知,减少错误问题。

    一种基于DMA模型和特征划分多源文本主题模型聚类方法

    公开(公告)号:CN111813934B

    公开(公告)日:2024-04-30

    申请号:CN202010570956.0

    申请日:2020-06-22

    Applicant: 贵州大学

    Abstract: 本发明公开了一种基于DMA模型和特征划分多源文本主题模型聚类方法,所述方法包含有如下步骤:一、从多个来源收集文本集;二、将来自多个数据源的文本信息进行文本预处理;三、基于DMA模型和特征划分构建多源主题模型;四、进行Blocked Gibbs采样并更新参数;五、根据采样结果进行文本聚类。本发明通过更新多源文本的主题‑词分布的先验参数,改善了多源文本的聚类效果;本发明能够自动判别每个数据源文本中簇的数目,而不需要人为提前给定;每个数据源拥有各自的主题分布、主题‑特征词分布以及噪音词分布参数,因此本发明能保留多源文本中每个数据源的主题热点以及用词特点。

    一种自适应结构学习的深度文本聚类方法及装置

    公开(公告)号:CN116483999A

    公开(公告)日:2023-07-25

    申请号:CN202310399473.2

    申请日:2023-04-14

    Abstract: 本发明公开了一种基于自适应结构学习的深度文本聚类方法,所述方法包括如下步骤:步骤一:构造K‑近邻图;步骤二:通过自适应阈值策略生成自适应结构的图;步骤三:使用阈值衰减策略让图卷积核动态调整拓扑范围,从而学习到文本的自适应的结构化语义表示;步骤四:利用自编码器学习文本的语义表示,并将其逐层融入步骤三学习到的结构化语义表示中,学习融合增强的语义表示;步骤五:不断反调优化编码器参数,得到最终的文本聚类结果。将结构信息融合到文本语义表示中,同时利用结构信息和语义信息共同监督聚类过程,有效解决了无监督文本聚类文本表示差异性、监督力度不够的问题,从而提高聚类结果的准确性,得到更适合下游任务的聚类结果。

    一种结合用户意图的深度半监督文本聚类方法、设备及介质

    公开(公告)号:CN114661903A

    公开(公告)日:2022-06-24

    申请号:CN202210208434.5

    申请日:2022-03-03

    Applicant: 贵州大学

    Abstract: 本发明提出一种结合用户意图的深度半监督文本聚类方法、设备及介质,所述方法包括如下步骤:步骤一:构造意图信息矩阵;步骤二:对文本进行向量映射,通过神经网络对文本向量进行提取特征;步骤三:利用意图信息矩阵优化编码器,进一步得到更好的特征表示;步骤四:利用KL散度辅助优化得到初始聚类结果;步骤五:构建优化函数,利用意图信息引导类簇聚集方向。在给定了约束对监督信息的基础上,充分利用深度神经网络挖掘意图信息,将意图信息融合到特征表示中,同时利用意图信息监督聚类过程,有效解决了半监督文本聚类文本表示差异性、监督力度不够和忽略用户意图的问题,从而提高聚类结果的准确性,得到更适合下游任务的聚类结果。

    基于词聚类的低频关键词识别方法

    公开(公告)号:CN108038099B

    公开(公告)日:2021-07-09

    申请号:CN201711228193.6

    申请日:2017-11-29

    Applicant: 贵州大学

    Abstract: 本发明公开了一种基于词聚类的低频关键词识别方法。本发明提出了3个创新点:(1)提出一种区别于传统方法的低频关键词词识别方法,该方法利用关键词的语义结构信息进行识别,能有效缓解低频关键词识别中上下文特征稀疏的问题。(2)提出一种基于词聚类的关键词语义结构生成方法,该方法利用词聚类后的词类标签替换候选关键词,然后选择出现次数多的标签模式作为语义结构。(3)针对相同语义结构下的低频关键词,提出一种面向低频关键词的排序方法,该方法利用文档信息对低频词进行排序。因此,本发明以网页自设置的关键词进行匹配,不需要训练数据,也不需要进行样本学习,脱离了网站结构的限制,具有较好的通用性。

    一种基于知识库的特定人员信息纠错方法

    公开(公告)号:CN110941720A

    公开(公告)日:2020-03-31

    申请号:CN201910865592.6

    申请日:2019-09-12

    Inventor: 黄瑞章

    Abstract: 本发明公开了一种基于知识库的特定人员信息纠错方法,涉及计算机文字识别技术领域。本方法利用Double-LSTM边界模型识别提取待检测文本中特定人员人名以及其他信息,用提取到的文本中信息与特定人员知识库中的特定人员信息进行对比计算相似度,判断当前文本中人名及其相关信息是否正确,建立正确人名信息库,同时筛选出疑似错误人名信息,优先使用本文中正确人名信息库其次使用特定人员知识库中信息对疑似错误信息进行相似度计算,以及其他辅助信息匹配,对疑似错误信息进行纠错。本方法解决了在句子中含有错误字符对文本语义的改变而导致人名识别困难的技术难点,同时大大提升了人名及称谓信息识别的效果,并实现了对文本中特定人员名及其相关信息的端对端直接纠错。

    一种基于卷积神经网络的分段池化关系抽取方法

    公开(公告)号:CN110516239A

    公开(公告)日:2019-11-29

    申请号:CN201910788092.7

    申请日:2019-08-26

    Applicant: 贵州大学

    Abstract: 本发明公开了一种基于卷积神经网络的分段池化关系抽取方法,所述方法包括如下步骤:步骤一:基于预训练词向量和随机词向量以及零向量对文本进行向量映射;步骤二:通过神经网络对向量矩阵进行卷积操作提取特征;步骤3:对卷积后的结果分段池化进一步抽象特征;步骤4:全连接、Softmax层预测结果。在充分利用句子文本完整信息的基础上,采用实体分割策略,引入神经网络技术,充分发挥神经网络分层自动提取高维抽象特征的特点,将提取由实体分割的文本各部分池化特征,并且在一定程度上避免传统机器学习方法产生的特征稀疏问题,从而提高关系抽取的性能。

Patent Agency Ranking