-
公开(公告)号:CN118917301B
公开(公告)日:2024-12-10
申请号:CN202411411874.6
申请日:2024-10-11
Applicant: 贵州大学
IPC: G06F40/205 , G06F40/30 , G06N3/0464 , G06N3/042 , G06N3/08 , G06F16/35
Abstract: 本发明涉及语言结构学习技术领域,特别是一种面向实体关系抽取的语言结构学习方法及系统,从数据集中提取关系提及语句、实体对以及实体对间的语义关系类别;将实体特征序列与实体标记语句结合得到文本序列,输入神经网络模型;将所述文本序列中的词映射成向量,得到抽象表示矩阵;构建增强特征关联邻接矩阵,作为神经网络模型训练的可变参数;抽象表示矩阵与增强特征关联邻接矩阵进行图卷积操作,并进行残差链接,得到文本语言结构特征;对文本语言结构特征进行全连接操作,通过激活函数和线性分类,输出语义关系分类结果。通过构建特征关联邻接矩阵,在神经网络隐藏层中不断更新矩阵,达到学习语言结构关系的目的,改善实体关系抽取的性能。
-
公开(公告)号:CN119046410A
公开(公告)日:2024-11-29
申请号:CN202411283023.8
申请日:2024-09-13
Applicant: 贵州大学
IPC: G06F16/33 , G06F40/211 , G06F16/35 , G06F40/194 , G06F40/284 , G06N3/045 , G06N3/047 , G06Q50/18 , G06F40/30
Abstract: 一种融合时序行为链与事件类型的类案检索方法,属于信息检索领域,包括:采用句法依存分析从案例事实中提取行为要素构造时序行为链;使用BERT‑CRF采取序列标注方法识别法律事件类型,提取案例事实中的犯罪类型;通过神经网络分别对时序行为链、犯罪类型和法律事件类型进行编码表示,对于时序行为链采取分段编码的方式构造时序行为链的相似性向量表征矩阵;用聚合评分器对匹配得分进行聚合得到最终相似性得分,增加了案例匹配得分的合理性。通过结合BERT和CRF能在保留案例事实的前提下,更精简的表示案情,减少无用信息干扰;采用分段编码方式构造时序行为链的相似性向量表征矩阵,充分利用案例中行为要素的语义信息。
-
公开(公告)号:CN118967068A
公开(公告)日:2024-11-15
申请号:CN202411455223.7
申请日:2024-10-18
Applicant: 贵州大学
IPC: G06Q10/10 , G06Q50/18 , G06N3/0442 , G06N3/08 , G06F16/33 , G06F16/335
Abstract: 本发明涉及智能文本审核技术领域,特别涉及一种基于要素抽取的智能合同审核方法,解决现有技术中的过度依赖人工规则,缺乏灵活性;未能深入挖掘合同结构与要素之间的深层关系、多阶段处理中易导致错误传播技术问题,具体为拆分合同原文为多个合同模块,使用双向的长短期记忆网络对合同模块中的句子进行特征编码,以将句子转换为向量表示;通过分析合同要素类型和合同模块类型共同出现的频率,通过构建C‑E图获得关系编码表示;结合关系编码表示和句子的向量表示,采用双反馈方案联合训练分类任务和要素抽取任务,抽取合同要素;搜索与合同缺失要素相关的合同要素,使用中文文本相似度评价指标对检索到的文本进行重新排名,输出审核报告。
-
公开(公告)号:CN118966225A
公开(公告)日:2024-11-15
申请号:CN202411423310.4
申请日:2024-10-12
Applicant: 贵州大学
IPC: G06F40/295 , G06F40/30 , G06N3/048 , G06N3/045 , G06N3/08
Abstract: 一种基于混合尺度句子表示的命名实体识别方法,属于自然语言处理和机器学习领域,包括:基于二维句子表示所具有的构建跨度的多尺度表示的能力,构建句子的二维表示;基于尺度空间理论,通过文本缩放操作将原始的二维句子表示转换为混合尺度二维句子表示;构建门控集成模块,集成混合尺度二维句子表示,通过多层感知来计算预测结果,完成针对命名实体的识别和分类。本发明通过设计特定的文本缩放操作生成多个调整大小的句子表示,有效地编码了句子的精细和粗尺度的语义特征;通过结合混合尺度句子表示的门控集成机制提高神经网络的可辩别性,可在二维句子表示中学习多个调整大小的表示,有效地支持识别具有较长或较短长度的命名实体。
-
公开(公告)号:CN118964625A
公开(公告)日:2024-11-15
申请号:CN202411440502.6
申请日:2024-10-16
Applicant: 贵州大学
IPC: G06F16/35 , G06F16/332 , G06F18/232 , G06F18/241 , G06Q50/18
Abstract: 本发明涉及智能文档管理系统技术领域,特别涉及结合标签关联图聚类和文本结构图注意力的合同分类方法,解决现有技术中的合同内部复杂的结构信息和标签之间的关联性,限制了分类精度和泛化能力的技术问题,包括:标签语义隐空间学习过程、合同特征提取过程、排序输出预测过程,本方法构建了基于标签共现的标签语义关联图,并通过图卷积神经网络与注意力机制相结合的方式,再通过谱聚类对标签簇之间的关联性进行了深入挖掘和量化表达,有效增强了模型对合同类别判断的语义理解能力;在处理合同文本时,通过预训练模型获得其语义特征,同时采用注意力机制融合标签关联图节点与合同标题的语义特征,有效减少了信息冗余并保留了文本结构信息的完整性。
-
公开(公告)号:CN118940732A
公开(公告)日:2024-11-12
申请号:CN202411436259.0
申请日:2024-10-15
Applicant: 贵州大学
IPC: G06F40/166 , G06F18/214 , G06Q50/18
Abstract: 本发明涉及智能识别模型应用技术领域,特别涉及一种基于大模型集成优化的合同审查报告生成方法,解决现有技术中的缺少通过自动化流程提高合同审查的效率和准确性的方法以对合同文本的深入分析和审查的技术问题,合同分类过程、意图识别过程,得到的合同类型与合同意图,遍历所述风险点审查库中的每一个所述审核问题,并作为输入传递给多个预训练的大型语言模型,通过集成所述多个预训练的大型语言模型的输出,使用一个投票器来对结果进行汇总和评估,将整合所有风险点的审核结果,形成一份全面的审查报告,可以大大提高模型对法律文档特定部分的理解能力,识别潜在风险和义务等方面。这种方法能够提升模型的精确度和针对性,确保更高的审查质量。
-
公开(公告)号:CN107798043B
公开(公告)日:2022-05-03
申请号:CN201710504980.2
申请日:2017-06-28
Applicant: 贵州大学 , 贵州耕云科技有限公司
IPC: G06F16/35
Abstract: 本发明公开了一种基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法。针对短文本的特征稀疏问题,本发明提出了主题相关长文本辅助短文本的思想,辅助的基础是长文本与短文本共享相同的主题‑词语分配。为了更好地提升聚类效果,该发明能够自动判断长文本中的有用词和噪音词,利用长文本中高质量的有用词与短文本集合进行文本聚类。此外,本发明能够自动识别文本集类的数目,改进了传统文本集类数目需要人为提前给定的情况。
-
公开(公告)号:CN111126039B
公开(公告)日:2022-04-01
申请号:CN201911355241.7
申请日:2019-12-25
Applicant: 贵州大学
IPC: G06F40/211 , G06F40/295 , G06F40/30 , G06F16/33 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种面向关系抽取的句子结构信息获取方法,所述方法包括如下步骤:步骤一、从数据集中抽取包含两个实体且已知实体语义关系类别的关系提及语句;步骤二、使用实体标记符和分隔符将步骤一中抽取出来的关系提及语句中的实体进行分隔和标记;步骤三、基于预训练字向量查找表或随机字向量查找表对文本进行向量映射;步骤四、通过神经网络对表示文本的向量矩阵进行卷积操作提取句子结构特征;步骤五、对卷积后的结果实施最大池化操作,进一步获取抽象特征;步骤六、全连接、Softmax层预测分类结果。通过在卷积神经网络之前对句子实体进行标记和分隔,能够更好地得到各部分内容的语义信息,获取到以实体为中心的句子结构特征,进行关系抽取,可以达到一个比较好的性能。
-
公开(公告)号:CN110516974A
公开(公告)日:2019-11-29
申请号:CN201910815035.3
申请日:2019-08-30
Applicant: 贵州大学
Abstract: 本发明公开了一种基于证据匹配的案件质量评估方法。本发明从案件的判决文书中抽取证据,通过让抽取的证据与该案件的电子卷宗目录、电子卷宗目录下图像、电子卷宗目录下图像文本等进行匹配的方式得到该案件的匹配结果。判决文书与电子卷宗之间的证据匹配结果能够直接反映该案件的质量状况,能够作为智能审判辅助系统的功能之一,从案件的角度反映人民法院司法改革的成效,促进法院的司法质量提升。
-
公开(公告)号:CN119990130A
公开(公告)日:2025-05-13
申请号:CN202510069987.0
申请日:2025-01-16
Applicant: 贵州大学
IPC: G06F40/295 , G06N3/045 , G06F18/2415 , G06F18/213
Abstract: 本发明属于自然语言处理技术领域,公开了一种多方向梯度特征提取的嵌套命名实体识别方法,包括以下步骤:对文本数据集进行预处理;将预处理的句子输入模型获取词向量的上下文特征;将具有上下文信息特征的句子进行平面化表示;通过逐通道卷积与扩展边缘梯度算子结合的方式,提取多方向实体语义边缘特征;使用逐点卷积进行空间连接得到高阶特征,送入多层感知机,与平面化句子表示的句子进行残差连接,使用Softmax和Argmax预测分类返回索引值,完成候选实体筛选。本发明采用上述一种多方向梯度特征提取的嵌套命名实体识别方法,在平面化句子表示中采用扩展八方向Sobel算子提取实体语义边缘特征,使其更加完整且具有区分度。
-
-
-
-
-
-
-
-
-