一种基于多核的深度文本聚类方法、装置及存储介质

    公开(公告)号:CN116720523B

    公开(公告)日:2024-02-06

    申请号:CN202310422925.4

    申请日:2023-04-19

    Abstract: 本发明公开了一种基于多核的深度文本聚类方法、装置及存储介质,从学习文本语义表示的角度,充分利用多尺度语义表示以获取更丰富的语义表示,从低维语义表示不可线性划分的角度,将多尺度文本语义表示映射得到不同的高维核空间,并以此为基础学习一个共识核空间,并且通过迭代优化聚类过程,达到数据语义表示线性可分和自监督聚类的目标,从而提高聚类结果准确性,有效解决了深度文本聚类方法中低维表示的线性不可分问题,设计了一种三重自监督损失函数监督指导聚类过程,有效解决了深度文本聚类方法与多核方法的联合优化问题,从而学习到高维线性可分的文本表示,提高聚类结果的准确性,更好的服务于下游任务。

    一种基于神经网络的中文关系抽取方法

    公开(公告)号:CN111008529B

    公开(公告)日:2023-07-21

    申请号:CN201910669521.9

    申请日:2019-07-24

    Applicant: 贵州大学

    Abstract: 本发明公开了一种基于神经网络的中文关系抽取方法,该方法可以有效获取句子的结构信息和语义信息。在关系抽取任务中,单一的长短期记忆模型只能学习到某个特定维度的特征,而卷积神经网络可以利用多个卷积核学习不同维度特征。基于上述两个特点,本发明提出了一种多层双向长短期记忆‑注意力模型,该方法通过给长短期记忆模型设置不同大小的隐藏层,使其能自动从原始输入中抽取不同维度的、带依赖信息的抽象特征,并利用注意力机制捕获全局信息。实验显示,本发明中的方法相较多核卷积神经网络和单一的长短期记忆‑注意力模型能显著提高中文关系抽取效果,在ACE RDC 2005中文数据集上取得71.61%的F值,取得了很好的效果,这证明了该方法的有效性。

    一种基于边缘梯度的嵌套命名实体语义增强方法及其系统

    公开(公告)号:CN116227491A

    公开(公告)日:2023-06-06

    申请号:CN202310008649.7

    申请日:2023-01-04

    Abstract: 本发明属于自然语言处理领域,具体涉及一种基于边缘梯度的嵌套命名实体语义增强方法及其系统。步骤1:预处理文本数据集,即把原始数据处理为适合实体模型进行处理;步骤2:基于步骤1预处理的句子输入模型,获取上下文信息特征;步骤3:将步骤2中上下文信息特征的句子,句子二维化;步骤4:将步骤3二维化后的句子通过逐通道卷积与边缘梯度的方法结合增强语义,将增强语义后的句子特征使用逐点卷积进行空间连接得到高级特征;步骤5:步骤4得到的高阶特征进入多层感知机后与双仿射形成的浅层信息编码,使用Softmax和Argmax预测分类返回索引值。用以解决现有技术中语义信息会渗透到相邻的嵌套实体表示中的问题;在边界检测中监督较少导致在确定命名实体的边界时通常表现出较差的性能的问题;在识别嵌套命名实体时会有噪声干扰的问题。

    一种基于神经网络的边界组合命名实体识别方法

    公开(公告)号:CN110032737B

    公开(公告)日:2022-03-22

    申请号:CN201910282991.X

    申请日:2019-04-10

    Applicant: 贵州大学

    Abstract: 本发明公开了一种基于神经网络的边界组合命名实体识别方法,包括以下步骤:步骤一:基于神经网络模型抽取实体边界信息,构建边界识别模型;步骤二:实施边界组合策略,对实体边界进组合,获取候选实体集;步骤三:构建神经网络分类器,对候选实体集进行筛选。本发明所公开的方法,采用边界组合策略,引入神经网络技术,充分发挥神经网络分层自动提取高维抽象特征的特点,将实体识别分为边界识别、边界组合和候选实体识别三步,弥补了传统序列模型的缺点,并且在一定程度上避免传统机器学习方法产生的特征稀疏问题,从而提高了嵌套命名实体识别的性能,取得了很好的效果。

    一种基于卷积神经网络的辅助分案方法

    公开(公告)号:CN112163752A

    公开(公告)日:2021-01-01

    申请号:CN202010995994.0

    申请日:2020-09-21

    Applicant: 贵州大学

    Abstract: 本发明公开了一种基于卷积神经网络的辅助分案方法,所述方法包含有如下步骤:一、提出融合审判质量的法官表示方法,构成任一法官的特征通过其审判案件的审判质量权重来挑选,选择法官审判质量高的案件的特征来表示法官;二、提出案件的表示方法,得到案件的语义特征表示向量;三、利用卷积神经网络实现案件和法官的匹配度计算;四、通过排序匹配度,输出前N个匹配值高的法官作为案件的推荐法官,实现自动分案。该方法利用词嵌入技术将句子表示映射到高阶语义空间,通过卷积神经网络自动抽取案件表示和法官表示之间的关联语义,然后在非线性空间中实现案件和法官的匹配度计算,获得案件和法官的匹配度,通过分案模块得到推荐法官,实现自动分案。

    一种基于DMA模型和特征划分多源文本主题模型聚类方法

    公开(公告)号:CN111813934A

    公开(公告)日:2020-10-23

    申请号:CN202010570956.0

    申请日:2020-06-22

    Applicant: 贵州大学

    Abstract: 本发明公开了一种基于DMA模型和特征划分多源文本主题模型聚类方法,所述方法包含有如下步骤:一、从多个来源收集文本集;二、将来自多个数据源的文本信息进行文本预处理;三、基于DMA模型和特征划分构建多源主题模型;四、进行Blocked Gibbs采样并更新参数;五、根据采样结果进行文本聚类。本发明通过更新多源文本的主题-词分布的先验参数,改善了多源文本的聚类效果;本发明能够自动判别每个数据源文本中簇的数目,而不需要人为提前给定;每个数据源拥有各自的主题分布、主题-特征词分布以及噪音词分布参数,因此本发明能保留多源文本中每个数据源的主题热点以及用词特点。

    一种基于犯罪行为链的相似案件计算方法

    公开(公告)号:CN111813906A

    公开(公告)日:2020-10-23

    申请号:CN202010557243.0

    申请日:2020-06-18

    Applicant: 贵州大学

    Abstract: 本发明公开了一种基于犯罪行为链的相似案件计算方法,步骤一:从裁判文书的案情描述部分抽取相关信息,采用Bert+Crf作为序列标注的模型,并进行关键信息抽取,最终构建出犯罪行为链;步骤二:基于犯罪行为链的结构特征,采用图神经网络模型作为基础计算模型,实现犯罪行为链的相似度计算;步骤三:将图神经网络模型得到的结果与文本内容信息结合,实现基于犯罪行为链的相似度计算方法找到相似案件。本发明充分利用犯罪行为链的特征,在传统的相似案例查找上有更深入的计算方法,提高了相似案件之间的相似度,为解类案推送提供技术支撑,取得了很好的效果。

    一种基于深度边界组合的生物医学命名实体识别方法

    公开(公告)号:CN111126040A

    公开(公告)日:2020-05-08

    申请号:CN201911362019.X

    申请日:2019-12-26

    Applicant: 贵州大学

    Abstract: 本发明公开了一种基于深度边界组合的生物医学命名实体识别方法,所述方法包括如下步骤:步骤一、将生物医学实体中的不连续性实体建模为嵌套实体结构;步骤二、使用字符级Embedding和词级别Embedding表示生物医学词汇信息;步骤三、基于步骤二获得的词向量,使用神经网络模型识别生物医学实体边界;步骤四、使用边界组合策略,产生候选实体集;步骤五、构建神经网络分类器,对候选实体集进行筛选。本发明针对生物医学命名实体特点,采用基于深度边界组合框架,结合可利用的外部资源,更加准确的表示生物医学词汇,解决生物医学文本中不连续实体识别问题,完成BioNER任务,为BioNER提供更加有力的理论和技术支撑,进一步地为生物医学领域的研究者提供便捷、高效的实体识别工具,有效的提高了生物医学实体识别的性能。

    一种面向关系抽取的句子结构信息获取方法

    公开(公告)号:CN111126039A

    公开(公告)日:2020-05-08

    申请号:CN201911355241.7

    申请日:2019-12-25

    Applicant: 贵州大学

    Abstract: 本发明公开了一种面向关系抽取的句子结构信息获取方法,所述方法包括如下步骤:步骤一、从数据集中抽取包含两个实体且已知实体语义关系类别的关系提及语句;步骤二、使用实体标记符和分隔符将步骤一中抽取出来的关系提及语句中的实体进行分隔和标记;步骤三、基于预训练字向量查找表或随机字向量查找表对文本进行向量映射;步骤四、通过神经网络对表示文本的向量矩阵进行卷积操作提取句子结构特征;步骤五、对卷积后的结果实施最大池化操作,进一步获取抽象特征;步骤六、全连接、Softmax层预测分类结果。通过在卷积神经网络之前对句子实体进行标记和分隔,能够更好地得到各部分内容的语义信息,获取到以实体为中心的句子结构特征,进行关系抽取,可以达到一个比较好的性能。

Patent Agency Ranking