文本分割方法、装置、计算机可读存储介质及设备

    公开(公告)号:CN118607531A

    公开(公告)日:2024-09-06

    申请号:CN202410671532.1

    申请日:2024-05-28

    发明人: 苟伟

    摘要: 本申请适用于数据处理领域,提供了一种文本分割方法、装置、计算机可读存储介质及计算机设备,该文本分割方法包括获取目标文本以及所述目标文本对应的目标分割长度;基于预设的第一提示信息以及所述目标分割长度对所述目标文本进行分割,得到候选文本;根据预设的第二提示信息将候选文本进行融合,得到融合文本;基于所述目标文本与融合文本之间的相似度,输出所述目标文本的分割文本,本方案可以提高文本分割的准确度。

    基于依存分析约束的提示学习模板自动生成方法

    公开(公告)号:CN118606427A

    公开(公告)日:2024-09-06

    申请号:CN202410286728.9

    申请日:2024-03-13

    摘要: 本发明专利开发了一种基于依存分析约束的提示学习模板自动生成方法,并利用Re‑TACRED和Fewrel 1.0数据集对其进行了评估。首先,对输入数据进行预处理,以删除缺失和填充。本发明专利通过初步的处理,使用预训练语言模型使任务重新表述为填空问题,从而产生一个有效的模型。本发明专利设计了一种基于梯度搜索引导为各种任务创建提示的自动化方法,通过从语料中提取出来的依存分析,从其中找到常见的句式结构去约束,从而无需额外的参数或者微调。结果表明,本发明专利提出的方法可以从预训练的MLM中为各种任务获取知识,这些提示优于手动提示,同时需要较少的人力,解决了在大部分场景下需要更多标签的问题。

    一种面向试题知识点分类的层次化语义匹配方法

    公开(公告)号:CN114429138B

    公开(公告)日:2024-09-06

    申请号:CN202210063062.1

    申请日:2022-01-19

    摘要: 本发明公开了一种面向试题知识点分类的层次化语义匹配方法。本发明方法首先构建了试题知识点层次化结构,将试题文本语义和知识点层次化语义映射到两者的联合空间中,使用语义匹配方法建模试题文本语义与不同试题知识点层次化结构的匹配关系。该匹配关系由试题知识点层次化结构所决定。具体而言,试题文本语义与试题核心考察的知识点语义是较为匹配的,与无关的知识点语义是不匹配的。在试题知识点分类应用时,本发明方法可以根据试题文本语义与知识点文本语义的匹配距离远近,获得层次化感知的知识点分类结果,该发明方法分类效果较好,具有一定的解释性。

    一种基于句法和图卷积网络的方面级情感分析方法及装置

    公开(公告)号:CN114417823B

    公开(公告)日:2024-09-06

    申请号:CN202210023639.6

    申请日:2022-01-10

    摘要: 本发明公开了一种基于句法依赖和图卷积网络的方面级情感分析方法及装置,涉及自然语言处理技术领域。本发明使用的方面融合图卷积网络模型能融入更多的语义信息,更好的利用句子中的句法信息和单词依赖性,从而提高模型的训练质量。首先,通过引入依赖树和依赖位置图来增强每个句子实例的句法依赖。然后,使用两个图卷积网络融合依赖树和依赖位置图以生成方面的交互情感特征。最后,通过注意力机制充分整合卷积层和掩蔽层的状态向量中与方面语义相关的重要特征。本发明解决了情感分析领域容易忽略的依赖树拓扑结构与依赖距离之间存在密切关系的问题,不仅增强了情感分类的效果,对于其他涉及到图卷积的分类任务也有较好的帮助。

    一种基于预训练模型的文本摘要生成方法

    公开(公告)号:CN118585641A

    公开(公告)日:2024-09-03

    申请号:CN202410624437.6

    申请日:2024-05-20

    发明人: 孙宇佳

    摘要: 本发明涉及计算机技术领域,具体公开了一种基于预训练模型的文本摘要生成方法,所述方法包括:随机抽取预设区间数据库的文本中的句子进行预处理;获取预处理后的句子类型输入预设BERT预训练语言模型进行训练,对句子进行主题分类处理确定主题类别;将分类后的同一类主题的句子作为一个主题集合,统计多个主题集合匹配生成多个目标任务序列并标记为X;设置摘要生成策略将标记过的目标任务序列X输入预训练摘要抽取模型进行训练输出,并生成目标文本摘要;本发明通过预训练语言模型在文本摘要生成中的优势以及自适应多目标强化学习在优化生成策略方面的潜力,提高文本摘要短时间生成效率并实现文本摘要信息的准确提取。

    输出语句的识别方法、装置、设备及存储介质

    公开(公告)号:CN118568238A

    公开(公告)日:2024-08-30

    申请号:CN202410797430.4

    申请日:2024-06-19

    发明人: 姬宁 李博

    摘要: 本发明实施例公开了一种输出语句的识别方法、装置、设备及存储介质,涉及计算机技术领域,该方法包括:获取目标样本对话信息组;目标样本对话信息组包括样本输入语句、样本输出语句、及样本输入语句的样本语义特征;样本语义特征和样本输出语句通过预先训练的第一对话模型得到;将目标样本对话信息组输入预先训练的第二对话模型,通过第二对话模型确定样本输入语句的预测语义特征,并根据样本语义特征与预测语义特征的匹配度,确定针对样本输出语句的准确性识别结果;第二对话模型对于语义特征的识别准确率高于第一对话模型。采用本发明实施例的技术方案,可以提高对小规模对话模型输出的应答语的巡检效率、以及确定出的巡检结果的准确率。

    一种基于上下文感知的文档级关系抽取方法

    公开(公告)号:CN118568198A

    公开(公告)日:2024-08-30

    申请号:CN202410685450.2

    申请日:2024-05-30

    摘要: 本发明公开了一种基于上下文感知的文档级关系抽取方法,包括以下步骤:A:获取文档中每个单词经连接操作后的单词嵌入;B:获取单词编码后的单词向量:C:获取文档中所有单词的实体节点,并穷举各个实体节点之间的边;D:获取实体节点所在句子的最终嵌入;E:获取文档的上下文信息表示;F:获取实体节点的隐藏表示;G:获取实体节点的最终表示;H:获取文档中实体对内的两个实体节点之间关系类型的概率;I:使用二元交叉熵定义损失函数:J:利用损失函数通过关系图卷积网络,求取每个实体对所对应的概率最大的关系类型作为实体对所属的关系类型,完成文档级关系抽取。本发明能够准确进行文档级关系抽取,实现实体对之间准确的关系预测。

    一种基于深度交叉网络的机器译文自动评价方法

    公开(公告)号:CN118395996B

    公开(公告)日:2024-08-30

    申请号:CN202410872045.1

    申请日:2024-07-01

    摘要: 本发明公开一种基于深度交叉网络的机器译文自动评价方法,步骤为:获取训练集,对训练集进行规范化处理;提取独立表征模式下句子级别机器译文质量特征向量;提取统一表征模式下句子级别机器译文质量特征向量;提取机器译文质量交叉特征向量;预测机器译文质量;训练基于深度交叉网络的机器译文自动评价模型。预测方法步骤为;将机器译文与人工参考译文输入上述基于深度交叉网络的机器译文自动评价模型预测机器译文质量;同时采用大语言模型向量数据库直接对机器译文和人工参考译文进行句向量表征,计算机器译文与人工参考译文的余弦相似度,将预测的机器译文质量与余弦相似度线性加权获取机器译文质量的分值。