-
公开(公告)号:CN119476266B
公开(公告)日:2025-04-15
申请号:CN202510038789.8
申请日:2025-01-10
Applicant: 贵州大学
IPC: G06F40/232 , G06F18/2415 , G06N20/00
Abstract: 本发明公开了一种基于最大熵原理的插用式中文拼写纠错方法,涉及自然语言处理技术领域;S1、给定输入文本序列#imgabs0#和训练标签#imgabs1#;S2、将S1所述输入文本序列#imgabs2#传入PLMs模型或CSC模型得到模型输出结果并计算损失函数;S3、根据S2的模型输出结果通过PPMEP挑选惩罚目标;S4、根据输入文本序列、模型输出结果和S3的惩罚目标应用香农公式计算出用于惩罚的熵正则化项;S5、将S4的熵正则化项和S2的损失函数进行融合并根据最大熵原理进行优化得到新的训练目标;S6、对S5中新的训练目标根据动态递减规则进行权重;本发明采用上述插用式中文拼写纠错方法,可无缝集成至现有模型,并利用最大熵原理优化模型分类概率表示,使得模型的纠正选择更贴合中文拼写纠错语境。
-
公开(公告)号:CN119476266A
公开(公告)日:2025-02-18
申请号:CN202510038789.8
申请日:2025-01-10
Applicant: 贵州大学
IPC: G06F40/232 , G06F18/2415 , G06N20/00
Abstract: 本发明公开了一种基于最大熵原理的插用式中文拼写纠错方法,涉及自然语言处理技术领域;S1、给定输入文本序列#imgabs0#和训练标签#imgabs1#;S2、将S1所述输入文本序列#imgabs2#传入PLMs模型或CSC模型得到模型输出结果并计算损失函数;S3、根据S2的模型输出结果通过PPMEP挑选惩罚目标;S4、根据输入文本序列、模型输出结果和S3的惩罚目标应用香农公式计算出用于惩罚的熵正则化项;S5、将S4的熵正则化项和S2的损失函数进行融合并根据最大熵原理进行优化得到新的训练目标;S6、对S5中新的训练目标根据动态递减规则进行权重;本发明采用上述插用式中文拼写纠错方法,可无缝集成至现有模型,并利用最大熵原理优化模型分类概率表示,使得模型的纠正选择更贴合中文拼写纠错语境。
-
公开(公告)号:CN118940746B
公开(公告)日:2024-12-10
申请号:CN202411431795.1
申请日:2024-10-14
Applicant: 贵州大学
IPC: G06F40/205 , G06F40/30 , G06N3/0499 , G06N3/08
Abstract: 一种基于神经核方法的关系抽取方法,属于自然语言处理领域,包括:关系抽取任务定义和形式化,建立从关系实例集合到关系标签集合的映射;构建神经核方法模型,将输入数据分配给与最接近的标注参考实例相同的类型。本发明在关系抽取任务中引入了三种神经核来演示关系抽取的核替换机制:通过三种神经核的优化,并使用核替换构建复合核,提高了深度神经网络的区分能力。本发明利用神经核方法进行关系抽取,通过结合神经网络和核替换的方法,提高分类准确性。利用神经核方法能自动学习关系实例之间的相似性,避免了现有关系抽取方法中手动设计特征和距离函数可能导致的问题,同时能充分利用深度学习和外部资源,提高关系抽取任务的性能和效果。
-
公开(公告)号:CN118917301B
公开(公告)日:2024-12-10
申请号:CN202411411874.6
申请日:2024-10-11
Applicant: 贵州大学
IPC: G06F40/205 , G06F40/30 , G06N3/0464 , G06N3/042 , G06N3/08 , G06F16/35
Abstract: 本发明涉及语言结构学习技术领域,特别是一种面向实体关系抽取的语言结构学习方法及系统,从数据集中提取关系提及语句、实体对以及实体对间的语义关系类别;将实体特征序列与实体标记语句结合得到文本序列,输入神经网络模型;将所述文本序列中的词映射成向量,得到抽象表示矩阵;构建增强特征关联邻接矩阵,作为神经网络模型训练的可变参数;抽象表示矩阵与增强特征关联邻接矩阵进行图卷积操作,并进行残差链接,得到文本语言结构特征;对文本语言结构特征进行全连接操作,通过激活函数和线性分类,输出语义关系分类结果。通过构建特征关联邻接矩阵,在神经网络隐藏层中不断更新矩阵,达到学习语言结构关系的目的,改善实体关系抽取的性能。
-
公开(公告)号:CN119046410A
公开(公告)日:2024-11-29
申请号:CN202411283023.8
申请日:2024-09-13
Applicant: 贵州大学
IPC: G06F16/33 , G06F40/211 , G06F16/35 , G06F40/194 , G06F40/284 , G06N3/045 , G06N3/047 , G06Q50/18 , G06F40/30
Abstract: 一种融合时序行为链与事件类型的类案检索方法,属于信息检索领域,包括:采用句法依存分析从案例事实中提取行为要素构造时序行为链;使用BERT‑CRF采取序列标注方法识别法律事件类型,提取案例事实中的犯罪类型;通过神经网络分别对时序行为链、犯罪类型和法律事件类型进行编码表示,对于时序行为链采取分段编码的方式构造时序行为链的相似性向量表征矩阵;用聚合评分器对匹配得分进行聚合得到最终相似性得分,增加了案例匹配得分的合理性。通过结合BERT和CRF能在保留案例事实的前提下,更精简的表示案情,减少无用信息干扰;采用分段编码方式构造时序行为链的相似性向量表征矩阵,充分利用案例中行为要素的语义信息。
-
公开(公告)号:CN118967068A
公开(公告)日:2024-11-15
申请号:CN202411455223.7
申请日:2024-10-18
Applicant: 贵州大学
IPC: G06Q10/10 , G06Q50/18 , G06N3/0442 , G06N3/08 , G06F16/33 , G06F16/335
Abstract: 本发明涉及智能文本审核技术领域,特别涉及一种基于要素抽取的智能合同审核方法,解决现有技术中的过度依赖人工规则,缺乏灵活性;未能深入挖掘合同结构与要素之间的深层关系、多阶段处理中易导致错误传播技术问题,具体为拆分合同原文为多个合同模块,使用双向的长短期记忆网络对合同模块中的句子进行特征编码,以将句子转换为向量表示;通过分析合同要素类型和合同模块类型共同出现的频率,通过构建C‑E图获得关系编码表示;结合关系编码表示和句子的向量表示,采用双反馈方案联合训练分类任务和要素抽取任务,抽取合同要素;搜索与合同缺失要素相关的合同要素,使用中文文本相似度评价指标对检索到的文本进行重新排名,输出审核报告。
-
公开(公告)号:CN118966225A
公开(公告)日:2024-11-15
申请号:CN202411423310.4
申请日:2024-10-12
Applicant: 贵州大学
IPC: G06F40/295 , G06F40/30 , G06N3/048 , G06N3/045 , G06N3/08
Abstract: 一种基于混合尺度句子表示的命名实体识别方法,属于自然语言处理和机器学习领域,包括:基于二维句子表示所具有的构建跨度的多尺度表示的能力,构建句子的二维表示;基于尺度空间理论,通过文本缩放操作将原始的二维句子表示转换为混合尺度二维句子表示;构建门控集成模块,集成混合尺度二维句子表示,通过多层感知来计算预测结果,完成针对命名实体的识别和分类。本发明通过设计特定的文本缩放操作生成多个调整大小的句子表示,有效地编码了句子的精细和粗尺度的语义特征;通过结合混合尺度句子表示的门控集成机制提高神经网络的可辩别性,可在二维句子表示中学习多个调整大小的表示,有效地支持识别具有较长或较短长度的命名实体。
-
公开(公告)号:CN118964625A
公开(公告)日:2024-11-15
申请号:CN202411440502.6
申请日:2024-10-16
Applicant: 贵州大学
IPC: G06F16/35 , G06F16/332 , G06F18/232 , G06F18/241 , G06Q50/18
Abstract: 本发明涉及智能文档管理系统技术领域,特别涉及结合标签关联图聚类和文本结构图注意力的合同分类方法,解决现有技术中的合同内部复杂的结构信息和标签之间的关联性,限制了分类精度和泛化能力的技术问题,包括:标签语义隐空间学习过程、合同特征提取过程、排序输出预测过程,本方法构建了基于标签共现的标签语义关联图,并通过图卷积神经网络与注意力机制相结合的方式,再通过谱聚类对标签簇之间的关联性进行了深入挖掘和量化表达,有效增强了模型对合同类别判断的语义理解能力;在处理合同文本时,通过预训练模型获得其语义特征,同时采用注意力机制融合标签关联图节点与合同标题的语义特征,有效减少了信息冗余并保留了文本结构信息的完整性。
-
公开(公告)号:CN118940732A
公开(公告)日:2024-11-12
申请号:CN202411436259.0
申请日:2024-10-15
Applicant: 贵州大学
IPC: G06F40/166 , G06F18/214 , G06Q50/18
Abstract: 本发明涉及智能识别模型应用技术领域,特别涉及一种基于大模型集成优化的合同审查报告生成方法,解决现有技术中的缺少通过自动化流程提高合同审查的效率和准确性的方法以对合同文本的深入分析和审查的技术问题,合同分类过程、意图识别过程,得到的合同类型与合同意图,遍历所述风险点审查库中的每一个所述审核问题,并作为输入传递给多个预训练的大型语言模型,通过集成所述多个预训练的大型语言模型的输出,使用一个投票器来对结果进行汇总和评估,将整合所有风险点的审核结果,形成一份全面的审查报告,可以大大提高模型对法律文档特定部分的理解能力,识别潜在风险和义务等方面。这种方法能够提升模型的精确度和针对性,确保更高的审查质量。
-
公开(公告)号:CN107798043B
公开(公告)日:2022-05-03
申请号:CN201710504980.2
申请日:2017-06-28
Applicant: 贵州大学 , 贵州耕云科技有限公司
IPC: G06F16/35
Abstract: 本发明公开了一种基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法。针对短文本的特征稀疏问题,本发明提出了主题相关长文本辅助短文本的思想,辅助的基础是长文本与短文本共享相同的主题‑词语分配。为了更好地提升聚类效果,该发明能够自动判断长文本中的有用词和噪音词,利用长文本中高质量的有用词与短文本集合进行文本聚类。此外,本发明能够自动识别文本集类的数目,改进了传统文本集类数目需要人为提前给定的情况。
-
-
-
-
-
-
-
-
-