一种基于多核的深度文本聚类方法、装置及存储介质

    公开(公告)号:CN116720523B

    公开(公告)日:2024-02-06

    申请号:CN202310422925.4

    申请日:2023-04-19

    Abstract: 本发明公开了一种基于多核的深度文本聚类方法、装置及存储介质,从学习文本语义表示的角度,充分利用多尺度语义表示以获取更丰富的语义表示,从低维语义表示不可线性划分的角度,将多尺度文本语义表示映射得到不同的高维核空间,并以此为基础学习一个共识核空间,并且通过迭代优化聚类过程,达到数据语义表示线性可分和自监督聚类的目标,从而提高聚类结果准确性,有效解决了深度文本聚类方法中低维表示的线性不可分问题,设计了一种三重自监督损失函数监督指导聚类过程,有效解决了深度文本聚类方法与多核方法的联合优化问题,从而学习到高维线性可分的文本表示,提高聚类结果的准确性,更好的服务于下游任务。

    一种基于知识库的特定人员信息纠错方法

    公开(公告)号:CN110941720B

    公开(公告)日:2023-06-09

    申请号:CN201910865592.6

    申请日:2019-09-12

    Inventor: 黄瑞章

    Abstract: 本发明公开了一种基于知识库的特定人员信息纠错方法,涉及计算机文字识别技术领域。本方法利用Double‑LSTM边界模型识别提取待检测文本中特定人员人名以及其他信息,用提取到的文本中信息与特定人员知识库中的特定人员信息进行对比计算相似度,判断当前文本中人名及其相关信息是否正确,建立正确人名信息库,同时筛选出疑似错误人名信息,优先使用本文中正确人名信息库其次使用特定人员知识库中信息对疑似错误信息进行相似度计算,以及其他辅助信息匹配,对疑似错误信息进行纠错。本方法解决了在句子中含有错误字符对文本语义的改变而导致人名识别困难的技术难点,同时大大提升了人名及称谓信息识别的效果,并实现了对文本中特定人员名及其相关信息的端对端直接纠错。

    一种基于边缘梯度的嵌套命名实体语义增强方法及其系统

    公开(公告)号:CN116227491A

    公开(公告)日:2023-06-06

    申请号:CN202310008649.7

    申请日:2023-01-04

    Abstract: 本发明属于自然语言处理领域,具体涉及一种基于边缘梯度的嵌套命名实体语义增强方法及其系统。步骤1:预处理文本数据集,即把原始数据处理为适合实体模型进行处理;步骤2:基于步骤1预处理的句子输入模型,获取上下文信息特征;步骤3:将步骤2中上下文信息特征的句子,句子二维化;步骤4:将步骤3二维化后的句子通过逐通道卷积与边缘梯度的方法结合增强语义,将增强语义后的句子特征使用逐点卷积进行空间连接得到高级特征;步骤5:步骤4得到的高阶特征进入多层感知机后与双仿射形成的浅层信息编码,使用Softmax和Argmax预测分类返回索引值。用以解决现有技术中语义信息会渗透到相邻的嵌套实体表示中的问题;在边界检测中监督较少导致在确定命名实体的边界时通常表现出较差的性能的问题;在识别嵌套命名实体时会有噪声干扰的问题。

    一种基于卷积神经网络的辅助分案方法

    公开(公告)号:CN112163752A

    公开(公告)日:2021-01-01

    申请号:CN202010995994.0

    申请日:2020-09-21

    Applicant: 贵州大学

    Abstract: 本发明公开了一种基于卷积神经网络的辅助分案方法,所述方法包含有如下步骤:一、提出融合审判质量的法官表示方法,构成任一法官的特征通过其审判案件的审判质量权重来挑选,选择法官审判质量高的案件的特征来表示法官;二、提出案件的表示方法,得到案件的语义特征表示向量;三、利用卷积神经网络实现案件和法官的匹配度计算;四、通过排序匹配度,输出前N个匹配值高的法官作为案件的推荐法官,实现自动分案。该方法利用词嵌入技术将句子表示映射到高阶语义空间,通过卷积神经网络自动抽取案件表示和法官表示之间的关联语义,然后在非线性空间中实现案件和法官的匹配度计算,获得案件和法官的匹配度,通过分案模块得到推荐法官,实现自动分案。

    一种基于DMA模型和特征划分多源文本主题模型聚类方法

    公开(公告)号:CN111813934A

    公开(公告)日:2020-10-23

    申请号:CN202010570956.0

    申请日:2020-06-22

    Applicant: 贵州大学

    Abstract: 本发明公开了一种基于DMA模型和特征划分多源文本主题模型聚类方法,所述方法包含有如下步骤:一、从多个来源收集文本集;二、将来自多个数据源的文本信息进行文本预处理;三、基于DMA模型和特征划分构建多源主题模型;四、进行Blocked Gibbs采样并更新参数;五、根据采样结果进行文本聚类。本发明通过更新多源文本的主题-词分布的先验参数,改善了多源文本的聚类效果;本发明能够自动判别每个数据源文本中簇的数目,而不需要人为提前给定;每个数据源拥有各自的主题分布、主题-特征词分布以及噪音词分布参数,因此本发明能保留多源文本中每个数据源的主题热点以及用词特点。

    一种基于犯罪行为链的相似案件计算方法

    公开(公告)号:CN111813906A

    公开(公告)日:2020-10-23

    申请号:CN202010557243.0

    申请日:2020-06-18

    Applicant: 贵州大学

    Abstract: 本发明公开了一种基于犯罪行为链的相似案件计算方法,步骤一:从裁判文书的案情描述部分抽取相关信息,采用Bert+Crf作为序列标注的模型,并进行关键信息抽取,最终构建出犯罪行为链;步骤二:基于犯罪行为链的结构特征,采用图神经网络模型作为基础计算模型,实现犯罪行为链的相似度计算;步骤三:将图神经网络模型得到的结果与文本内容信息结合,实现基于犯罪行为链的相似度计算方法找到相似案件。本发明充分利用犯罪行为链的特征,在传统的相似案例查找上有更深入的计算方法,提高了相似案件之间的相似度,为解类案推送提供技术支撑,取得了很好的效果。

    一种基于深度边界组合的生物医学命名实体识别方法

    公开(公告)号:CN111126040A

    公开(公告)日:2020-05-08

    申请号:CN201911362019.X

    申请日:2019-12-26

    Applicant: 贵州大学

    Abstract: 本发明公开了一种基于深度边界组合的生物医学命名实体识别方法,所述方法包括如下步骤:步骤一、将生物医学实体中的不连续性实体建模为嵌套实体结构;步骤二、使用字符级Embedding和词级别Embedding表示生物医学词汇信息;步骤三、基于步骤二获得的词向量,使用神经网络模型识别生物医学实体边界;步骤四、使用边界组合策略,产生候选实体集;步骤五、构建神经网络分类器,对候选实体集进行筛选。本发明针对生物医学命名实体特点,采用基于深度边界组合框架,结合可利用的外部资源,更加准确的表示生物医学词汇,解决生物医学文本中不连续实体识别问题,完成BioNER任务,为BioNER提供更加有力的理论和技术支撑,进一步地为生物医学领域的研究者提供便捷、高效的实体识别工具,有效的提高了生物医学实体识别的性能。

    一种面向关系抽取的句子结构信息获取方法

    公开(公告)号:CN111126039A

    公开(公告)日:2020-05-08

    申请号:CN201911355241.7

    申请日:2019-12-25

    Applicant: 贵州大学

    Abstract: 本发明公开了一种面向关系抽取的句子结构信息获取方法,所述方法包括如下步骤:步骤一、从数据集中抽取包含两个实体且已知实体语义关系类别的关系提及语句;步骤二、使用实体标记符和分隔符将步骤一中抽取出来的关系提及语句中的实体进行分隔和标记;步骤三、基于预训练字向量查找表或随机字向量查找表对文本进行向量映射;步骤四、通过神经网络对表示文本的向量矩阵进行卷积操作提取句子结构特征;步骤五、对卷积后的结果实施最大池化操作,进一步获取抽象特征;步骤六、全连接、Softmax层预测分类结果。通过在卷积神经网络之前对句子实体进行标记和分隔,能够更好地得到各部分内容的语义信息,获取到以实体为中心的句子结构特征,进行关系抽取,可以达到一个比较好的性能。

    基于模糊序列模式发掘的网页内容提取方法

    公开(公告)号:CN106547851B

    公开(公告)日:2020-04-07

    申请号:CN201610911400.7

    申请日:2016-10-19

    Abstract: 本发明公开了一种基于模糊序列模式发掘的网页内容提取方法。本发明针对网页内容提取问题,通过相同内容块内容在超文本标记语言中距离较近,不同内容块的内容相距较远的原理,针对网页上的每一个内容模块,分别用一个行文字长度序列的方式来表示,同时越是功能性模块模糊度越低,信息越丰富的内容模块序列模糊度越高。针对不同网站,利用少量给定网页进行训练,得到模糊序列模式,对于来自同一个网站的新页面将利用模糊序列模式来进行匹配,得到不同类型的网页内容。这样的方法能够显著提高内容提取的准确性,同时能够将不同类型的内容分开提取。

Patent Agency Ranking