-
公开(公告)号:CN110516068A
公开(公告)日:2019-11-29
申请号:CN201910785197.7
申请日:2019-08-23
Applicant: 贵州大学
IPC: G06F16/35
Abstract: 本发明公开了一种基于度量学习的多维度文本聚类方法,它主要包括以下步骤:一从数据集中选取两个维度并进行特征向量化表示;二使用K-Means聚类方法并结合度量矩阵学习分别对两个维度进行初始化聚类;三判断当前的聚类结果是否达到结束条件,若不满足则设置约束对上限常数执行步骤四,否则结束算法,输出聚类结果辅助下游任务;四利用当前维度的聚类结果挑选满足条件的约束对;五将步骤四所生成的约束集合加入到维度的聚类过程中,调节目标函数和度量矩阵的学习,得到两个维度的聚类结果;六重复迭代步骤三至步骤五。此方法基于度量学习的多维度文本聚类算法综合考虑数据在不同特征空间的表现方式,进行多维度辅助聚类,有较好的聚类效果。
-
公开(公告)号:CN110119905A
公开(公告)日:2019-08-13
申请号:CN201910433339.3
申请日:2019-05-23
Applicant: 贵州大学
Abstract: 本发明公开了一种基于双通道卷积神经网络的精准分案方法,包括以下步骤:一、建立判断法官擅长案件类型的评价指标;二、法官表示;三、案件表示;四、搭建分案模型:基于基准的神经网络模型,搭建双通道卷积神经网络模型,将法官及案件表示经过预训练的词向量矩阵,得到相应的向量矩阵表示作为数据输入模型,然后将两通道上池化层之后得到的特征向量进行拼接,最后得到输出结果,完成分案。结合数据挖掘、自然语言处理及神经网络方法,对法院数据进行处理,制定规则挖掘有价值的信息,进而为法院的智能化自动化分案提供技术支撑,大大提高了分案效率,实现自动化的,有效的避免了司法过程中的腐败现象,提高了分案的准确率,取得了很好的效果。
-
公开(公告)号:CN119990139A
公开(公告)日:2025-05-13
申请号:CN202510069995.5
申请日:2025-01-16
Applicant: 贵州大学
IPC: G06F40/30 , G06N3/0442 , G06N3/045 , G06F40/295
Abstract: 本发明提供了一种序列标注优化方法、系统、计算机设备及介质,属于计算机应用及自然语言处理技术领域。该方法包括以下步骤:S1、对文本数据集进行预处理,构建预处理后的数据集;S2、获取预处理后的数据集中的词向量;S3、将获取的词向量同时输入到标签分类器和两个不同的偏移量分类器中,分别获取标签序列和偏移量序列;S4、基于获取的标签序列提取实体跨度集;S5、基于获取的偏移量序列,进行平滑处理,平滑偏移量序列中的噪声,并提取候选跨度集;S6、通过交并比策略过滤掉低质量的候选跨度,得到过滤后的候选跨度;S7、基于过滤后的候选跨度,更新标签序列中的相应实体跨度。本发明可以提高命名实体识别的准确性。
-
公开(公告)号:CN119443089A
公开(公告)日:2025-02-14
申请号:CN202510026587.1
申请日:2025-01-08
Applicant: 贵州耕云科技有限公司 , 贵州大学
IPC: G06F40/232 , G06F40/211 , G06F40/186 , G06F40/284 , G06F40/30 , G06N3/0455 , G06N3/0895
Abstract: 本发明涉及自然语言处理技术领域,公开了一种多输入中文拼写纠错方法、系统、电子设备及介质,方法包括:获取不同类型的拼写纠错模型针对同一个待纠错句子输出的纠错结果;根据提示词模板和各个纠错结果组成的候选集合确定提示词;将提示词输入至大语言模型,确定输出结果;根据输出结果确定待纠错句子的正确中文拼写结果。本申请集合了多个不同类型的拼写纠错模型的纠错结果融入到提示词中,作为大语言模型的输入,提高了正确结果在集合中的召回率,另外,本申请通过特定的提示词模板,使得大语言模型不会直接生成纠错的句子,而是生成提示词模板对应的输出结果,从而有效避免大语言模型自由生成的纠错结果与原句存在较大的语义偏差。
-
公开(公告)号:CN119046439A
公开(公告)日:2024-11-29
申请号:CN202411280929.4
申请日:2024-09-13
Applicant: 贵州大学
IPC: G06F16/332 , G06Q50/18 , G06F40/30 , G06F40/194 , G06N3/045
Abstract: 本发明提供一种交互式法律问答的历史案例检索方法,包括:基于法律问答文本,利用文本意图识别模型,识别是否需要进行历史案例检索;采用文本相似度函数计算所述法律问答文本与所述历史案例的相似度,并输出文本相似度最高的前N个历史案例;利用罪名预测模型,预测法律问答本文所属罪名,并利用所属罪名在案例库中搜寻历史案例,输出文本相似度最高的前N个历史案例;基于所述文本相似度最高的前N个历史案例,构建提示词,并利用大模型作为判别器,筛选过滤最合适的历史案例,本发明减少了问答过程中不必要的检索流程,提高法律问答短文本内容历史案例检索的准确性;可以确保在短文本缺乏关键信息进行历史案例检索的可靠性和准确性。
-
公开(公告)号:CN118940746A
公开(公告)日:2024-11-12
申请号:CN202411431795.1
申请日:2024-10-14
Applicant: 贵州大学
IPC: G06F40/205 , G06F40/30 , G06N3/0499 , G06N3/08
Abstract: 一种基于神经核方法的关系抽取方法,属于自然语言处理领域,包括:关系抽取任务定义和形式化,建立从关系实例集合到关系标签集合的映射;构建神经核方法模型,将输入数据分配给与最接近的标注参考实例相同的类型。本发明在关系抽取任务中引入了三种神经核来演示关系抽取的核替换机制:通过三种神经核的优化,并使用核替换构建复合核,提高了深度神经网络的区分能力。本发明利用神经核方法进行关系抽取,通过结合神经网络和核替换的方法,提高分类准确性。利用神经核方法能自动学习关系实例之间的相似性,避免了现有关系抽取方法中手动设计特征和距离函数可能导致的问题,同时能充分利用深度学习和外部资源,提高关系抽取任务的性能和效果。
-
公开(公告)号:CN116414989A
公开(公告)日:2023-07-11
申请号:CN202310457296.9
申请日:2023-04-25
Applicant: 贵州大学
IPC: G06F16/35 , G06F16/36 , G06F40/30 , G06N5/025 , G06N3/045 , G06N3/0464 , G06N3/047 , G06N3/048 , G16B40/00 , G16H50/70
Abstract: 本发明公开了一种层次化卷积的生物医学关系抽取方法、装置及存储介质,包含两个卷积层,以分层的方式实现。在该模型中,通过使用一个关系实例中的两个命名实体,将句子分成五个通道。然后,采用传统的token级卷积操作从每个通道中学习局部上下文特征。特别地,设计了一个通道级卷积操作来学习不同通道之间的语义依赖关系。相较于传统的卷积模型,该发明能有效地编码长句子中的距离语义依赖。此外,该发明充分利用了预训练语言模型的潜在知识。
-
公开(公告)号:CN111126040B
公开(公告)日:2023-06-20
申请号:CN201911362019.X
申请日:2019-12-26
Applicant: 贵州大学
IPC: G06F40/211 , G06F40/295 , G06N3/0442 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于深度边界组合的生物医学命名实体识别方法,所述方法包括如下步骤:步骤一、将生物医学实体中的不连续性实体建模为嵌套实体结构;步骤二、使用字符级Embedding和词级别Embedding表示生物医学词汇信息;步骤三、基于步骤二获得的词向量,使用神经网络模型识别生物医学实体边界;步骤四、使用边界组合策略,产生候选实体集;步骤五、构建神经网络分类器,对候选实体集进行筛选。本发明针对生物医学命名实体特点,采用基于深度边界组合框架,结合可利用的外部资源,更加准确的表示生物医学词汇,解决生物医学文本中不连续实体识别问题,完成BioNER任务,为BioNER提供更加有力的理论和技术支撑,进一步地为生物医学领域的研究者提供便捷、高效的实体识别工具,有效的提高了生物医学实体识别的性能。
-
公开(公告)号:CN110516068B
公开(公告)日:2023-05-26
申请号:CN201910785197.7
申请日:2019-08-23
Applicant: 贵州大学
IPC: G06F16/35
Abstract: 本发明公开了一种基于度量学习的多维度文本聚类方法,它主要包括以下步骤:一从数据集中选取两个维度并进行特征向量化表示;二使用K‑Means聚类方法并结合度量矩阵学习分别对两个维度进行初始化聚类;三判断当前的聚类结果是否达到结束条件,若不满足则设置约束对上限常数执行步骤四,否则结束算法,输出聚类结果辅助下游任务;四利用当前维度的聚类结果挑选满足条件的约束对;五将步骤四所生成的约束集合加入到维度的聚类过程中,调节目标函数和度量矩阵的学习,得到两个维度的聚类结果;六重复迭代步骤三至步骤五。此方法基于度量学习的多维度文本聚类算法综合考虑数据在不同特征空间的表现方式,进行多维度辅助聚类,有较好的聚类效果。
-
公开(公告)号:CN116050609A
公开(公告)日:2023-05-02
申请号:CN202310008676.4
申请日:2023-01-04
Applicant: 贵州大学 , 贵州数文科技有限公司
IPC: G06Q10/04 , G06Q50/18 , G06F40/30 , G06F16/35 , G06N3/042 , G06N3/0442 , G06N3/045 , G06N3/0464 , G06N3/048 , G06N3/0895
Abstract: 本发明属于信息抽取领域,具体涉及一种融合行为词的罪名预测多任务学习方法。步骤1:对裁判文书的案件描述,使用BERT预训练得到文本信息的抽象语义表示;步骤2:基于步骤1的文本信息的抽象语义表示,利用BiLSTM获取文本中上下文语义依赖特征;步骤3:基于步骤2的上下文语义依赖特征,识别行为词边界的方式定位其所在文本的位置;步骤4:基于步骤3定位行为词边界,通过组合得到不同边界生成行为词的跨度;步骤5:基于步骤4识别的行为词跨度,通过构建行为词之间的相关性信息预测所属罪名。用以解决现有方法却往往依赖文本特征,忽略了不同案件行为要素的差异性,缺乏对犯罪行为的有效利用以及不同任务之间参数信息无法共享的问题。
-
-
-
-
-
-
-
-
-