-
公开(公告)号:CN119493884A
公开(公告)日:2025-02-21
申请号:CN202510082874.4
申请日:2025-01-20
Applicant: 贵州大学
IPC: G06F16/903 , G06F16/901 , G06N5/04 , G06N3/045 , G06N3/042 , G06N3/0464 , G06N3/084 , G06N3/0985
Abstract: 本发明公开了一种结合因果关系的法条推荐方法,涉及法条推荐技术领域,包括以下步骤:步骤1、构建案件事实‑法条有向二分图;步骤2、构建双层图卷积神经网络模型;步骤3、对步骤2构建的双层图卷积神经网络模型进行训练;步骤4、训练过程完成后,通过精准度、准确度、召回率、F1分数评估模型性能,根据评估结果,调整模型超参数;本发明提供的方法通过保留训练集中低频法条及其关联案件事实,再利用图卷积神经网络聚合邻近节点的信息,增强低频法条的特征表示,从而使其语义信息得到有效利用,提高低频法条的推荐成功率。
-
公开(公告)号:CN118966225B
公开(公告)日:2024-12-24
申请号:CN202411423310.4
申请日:2024-10-12
Applicant: 贵州大学
IPC: G06F40/295 , G06F40/30 , G06N3/048 , G06N3/045 , G06N3/08
Abstract: 一种基于混合尺度句子表示的命名实体识别方法,属于自然语言处理和机器学习领域,包括:基于二维句子表示所具有的构建跨度的多尺度表示的能力,构建句子的二维表示;基于尺度空间理论,通过文本缩放操作将原始的二维句子表示转换为混合尺度二维句子表示;构建门控集成模块,集成混合尺度二维句子表示,通过多层感知来计算预测结果,完成针对命名实体的识别和分类。本发明通过设计特定的文本缩放操作生成多个调整大小的句子表示,有效地编码了句子的精细和粗尺度的语义特征;通过结合混合尺度句子表示的门控集成机制提高神经网络的可辩别性,可在二维句子表示中学习多个调整大小的表示,有效地支持识别具有较长或较短长度的命名实体。
-
公开(公告)号:CN118940732B
公开(公告)日:2024-12-24
申请号:CN202411436259.0
申请日:2024-10-15
Applicant: 贵州大学
IPC: G06F40/166 , G06F18/214 , G06Q50/18
Abstract: 本发明涉及智能识别模型应用技术领域,特别涉及一种基于大模型集成优化的合同审查报告生成方法,解决现有技术中的缺少通过自动化流程提高合同审查的效率和准确性的方法以对合同文本的深入分析和审查的技术问题,合同分类过程、意图识别过程,得到的合同类型与合同意图,遍历所述风险点审查库中的每一个所述审核问题,并作为输入传递给多个预训练的大型语言模型,通过集成所述多个预训练的大型语言模型的输出,使用一个投票器来对结果进行汇总和评估,将整合所有风险点的审核结果,形成一份全面的审查报告,可以大大提高模型对法律文档特定部分的理解能力,识别潜在风险和义务等方面。这种方法能够提升模型的精确度和针对性,确保更高的审查质量。
-
公开(公告)号:CN118862861A
公开(公告)日:2024-10-29
申请号:CN202410871616.X
申请日:2024-07-01
Applicant: 贵州大学
IPC: G06F40/205 , G06F40/284 , G06N5/04 , G06N5/022 , G06Q50/18
Abstract: 一种基于反绎提示工程的法律事实认定方法,属于人工智能领域,包括以下步骤:基于案情事实部分、提示词以及法律大语言模型得到初步法律事实认定结果;将上述获得的初步法律事实认定结果以一阶逻辑的形式进行抽象化表示;结合案情知识库与一阶逻辑抽象化表示后的法律事实认定结果进行最小不一致性推理修正并更新提示词;通过动态更新提示词重新推理法律事实认定结果;重复以上步骤,直至一阶逻辑抽象化表示的法律事实认定结果与案情知识库推理产生一致性。本发明解决了现有较小的大语言模型在法律推理中隐式法律知识难以引出和计算资源有限的问题。本发明可以在较小大语言模型的基础上,实现法律事实的更精确推理,节省了计算资源的消耗。
-
公开(公告)号:CN114661903B
公开(公告)日:2024-07-09
申请号:CN202210208434.5
申请日:2022-03-03
Applicant: 贵州大学
IPC: G06F16/35 , G06F40/216 , G06F40/284 , G06F40/30 , G06F18/2321
Abstract: 本发明提出一种结合用户意图的深度半监督文本聚类方法、设备及介质,所述方法包括如下步骤:步骤一:构造意图信息矩阵;步骤二:对文本进行向量映射,通过神经网络对文本向量进行提取特征;步骤三:利用意图信息矩阵优化编码器,进一步得到更好的特征表示;步骤四:利用KL散度辅助优化得到初始聚类结果;步骤五:构建优化函数,利用意图信息引导类簇聚集方向。在给定了约束对监督信息的基础上,充分利用深度神经网络挖掘意图信息,将意图信息融合到特征表示中,同时利用意图信息监督聚类过程,有效解决了半监督文本聚类文本表示差异性、监督力度不够和忽略用户意图的问题,从而提高聚类结果的准确性,得到更适合下游任务的聚类结果。
-
公开(公告)号:CN111813935B
公开(公告)日:2024-04-30
申请号:CN202010570969.8
申请日:2020-06-22
Applicant: 贵州大学
IPC: G06F16/35 , G06F40/284
Abstract: 本发明公开了一种基于层次狄利克雷多项分配模型的多源文本聚类方法,所述方法包含有如下步骤:一、从多个来源收集文本集;二、将来自多个数据源的文本信息进行文本预处理;三、基于层次狄利克雷多项分配模型构建主题模型;四、进行Blocked Gibbs采样并更新参数#imgabs0#;五、根据采样结果进行文本聚类。本发明通过更新多源文本的主题‑词分布的先验参数,改善多源文本聚类效果;所建立的模型能够自动判别每个数据源文本中簇的数目,而不需要人为提前给定,能够较大程度地提高多源文本聚类效果。
-
公开(公告)号:CN116720523A
公开(公告)日:2023-09-08
申请号:CN202310422925.4
申请日:2023-04-19
Applicant: 贵州轻工职业技术学院 , 贵州大学
IPC: G06F40/30 , G06F18/23213 , G06F18/25
Abstract: 本发明公开了一种基于多核的深度文本聚类方法、装置及存储介质,从学习文本语义表示的角度,充分利用多尺度语义表示以获取更丰富的语义表示,从低维语义表示不可线性划分的角度,将多尺度文本语义表示映射得到不同的高维核空间,并以此为基础学习一个共识核空间,并且通过迭代优化聚类过程,达到数据语义表示线性可分和自监督聚类的目标,从而提高聚类结果准确性,有效解决了深度文本聚类方法中低维表示的线性不可分问题,设计了一种三重自监督损失函数监督指导聚类过程,有效解决了深度文本聚类方法与多核方法的联合优化问题,从而学习到高维线性可分的文本表示,提高聚类结果的准确性,更好的服务于下游任务。
-
公开(公告)号:CN110516239B
公开(公告)日:2022-12-09
申请号:CN201910788092.7
申请日:2019-08-26
Applicant: 贵州大学
IPC: G06F16/36 , G06F40/279 , G06F40/30 , G06N3/04
Abstract: 本发明公开了一种基于卷积神经网络的分段池化关系抽取方法,所述方法包括如下步骤:步骤一:基于预训练词向量和随机词向量以及零向量对文本进行向量映射;步骤二:通过神经网络对向量矩阵进行卷积操作提取特征;步骤3:对卷积后的结果分段池化进一步抽象特征;步骤4:全连接、Softmax层预测结果。在充分利用句子文本完整信息的基础上,采用实体分割策略,引入神经网络技术,充分发挥神经网络分层自动提取高维抽象特征的特点,将提取由实体分割的文本各部分池化特征,并且在一定程度上避免传统机器学习方法产生的特征稀疏问题,从而提高关系抽取的性能。
-
公开(公告)号:CN114840640A
公开(公告)日:2022-08-02
申请号:CN202210382738.3
申请日:2022-04-13
Applicant: 贵州大学 , 贵州耕云科技有限公司
IPC: G06F16/33 , G06F16/335 , G06F16/387 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明是一种基于ELECTRA‑GCNN‑CRF模型的中文文本语法错误检测方法。本发明涉及自然语言处理技术领域,本发明将文本语法错误检测视为序列标注任务,在输入层使用ELECTRA预训练语言模型替换BERT模型,避免预训练阶段与微调阶段数据不匹配的问题;通过GCNN获取文本的局部信息,减轻语法错误对上下文语义的影响;通过CRF得到表示文本中包含的语法错误范围和类型的标签序列,最后输出语法错误检测结果。本发明通用性较强,无需人工提取词法句法特征,节约了人力和时间成本,效果较好,满足了中文语法错误自动检测的需求。
-
公开(公告)号:CN111813935A
公开(公告)日:2020-10-23
申请号:CN202010570969.8
申请日:2020-06-22
Applicant: 贵州大学
IPC: G06F16/35 , G06F40/284
Abstract: 本发明公开了一种基于层次狄利克雷多项分配模型的多源文本聚类方法,所述方法包含有如下步骤:一、从多个来源收集文本集;二、将来自多个数据源的文本信息进行文本预处理;三、基于层次狄利克雷多项分配模型构建主题模型;四、进行Blocked Gibbs采样并更新参数;五、根据采样结果进行文本聚类。本发明通过更新多源文本的主题-词分布的先验参数,改善多源文本聚类效果;所建立的模型能够自动判别每个数据源文本中簇的数目,而不需要人为提前给定,能够较大程度地提高多源文本聚类效果。
-
-
-
-
-
-
-
-
-