基于两阶段检索优化的检索增强生成方法、系统及设备

    公开(公告)号:CN118939764A

    公开(公告)日:2024-11-12

    申请号:CN202410935352.X

    申请日:2024-07-12

    摘要: 本申请公开一种基于两阶段检索优化的检索增强生成方法、系统及设备,涉及自然语言处理领域,方法包括:获取用户查询文本及多个知识文档;确定每个知识文档的摘要实体关系三元组集合和句子向量集合;将用户查询文本拆分为多个子查询实体关系三元组;计算子查询实体关系三元组与摘要实体关系三元组集合的摘要检索得分,确定第一阶段检索结果;根据第一阶段检索结果判断是否进行文档全文检索,若进行文档全文检索,则进一步确定每个子查询实体关系三元组的最匹配句子集合,根据所有子查询实体关系三元组及每个子查询实体关系三元组的最匹配句子集合确定回答文本。本申请可拓展文档知识库的知识应用能力和场景,提高回答文本的生成效率和精度。

    数据测试方法、装置、存储介质及计算机程序产品

    公开(公告)号:CN118939559A

    公开(公告)日:2024-11-12

    申请号:CN202411260021.7

    申请日:2024-09-09

    发明人: 周发孙 吴华生

    IPC分类号: G06F11/36 G06F8/41 G06F40/211

    摘要: 本申请公开了一种数据测试方法、装置、存储介质及计算机程序产品。其中,该方法包括:获取初始代码文件和目标提示语句;利用自然语言处理模型对初始代码文件和目标提示语句进行分析处理,生成单元测试代码;对单元测试代码进行编译处理,得到编译结果;响应基于编译结果确定单元测试代码通过编译,执行单元测试代码,得到测试执行结果。本申请解决了相关技术中在进行单元测试过程中存在的测试效率低、测试覆盖率差的技术问题。

    训练生成文本生成模型的方法及文本生成方法

    公开(公告)号:CN114492384B

    公开(公告)日:2024-11-12

    申请号:CN202210050521.2

    申请日:2022-01-17

    摘要: 本公开公开了训练生成文本生成模型的方法和文本生成方法。其中,训练生成文本生成模型的方法包括步骤:收集多个描述对象的文本,并生成文本中各段落对应的第一标签和第二标签,作为训练数据集;从训练数据集中选取出第一标签和第二标签均相同的第一数量个段落;从第一数量个段落中选取第二数量个句子,并对所选取的句子进行随机排序,作为第一子集;从第一数量个段落中选取第三数量个句子,作为第二子集;以及利用第一子集和所述第二子集,对初始的文本生成模型进行训练,得到训练好的文本生成模型,用来生成新的描述对象的文本。

    观点角色标注方法、装置、计算机设备和介质

    公开(公告)号:CN113553855B

    公开(公告)日:2024-11-12

    申请号:CN202010339904.2

    申请日:2020-04-26

    发明人: 章波 张月 王睿

    摘要: 本公开提供了一种观点角色标注方法、装置、计算机设备和介质。该方法包括:将待标注语料输入句法模型;将所述句法模型在获得所述待标注语料的句法结构的过程中得到的隐藏状态词序列表示,与所述待标注语料一起输入串联的双向长短期记忆模型和条件随机场模型,得到待标注语料的观点角色。本公开提供了一种不采用SRL辅助的方式,却也能够达到与采用SRL辅助的方式同样的性能的观点角色标注。

    检测叠词错误的方法、装置及系统

    公开(公告)号:CN112949289B

    公开(公告)日:2024-11-05

    申请号:CN201911263865.6

    申请日:2019-12-11

    摘要: 本发明提供一种检测叠词错误的方法、装置及系统,该方法包括:获取文本,并得到多个待检测文本,且获得待检测文本中的重复词组;对重复词组所在的原始文本片段进行分词,检测是否存在相邻叠词;若存在相邻叠词,将相邻叠词的词性在预设词性数据库中进行匹配;若匹配成功,则将原始文本片段中的一个叠词进行删除得到待检测文本片段,并得到原始文本片段和待检测文本片段的使用概率;若原始文本片段的使用概率小于待检测文本片段的使用概率,则确定相邻叠词在原始文本片段中使用错误。实现了叠词误用的判断,提高检测的准确率和检测速度,且能够适应不同长度的句子,进而提高长句叠词判断的准确率。

    一种语句生成方法、装置、终端设备及存储介质

    公开(公告)号:CN118885816A

    公开(公告)日:2024-11-01

    申请号:CN202411354055.2

    申请日:2024-09-27

    发明人: 吴元浩

    摘要: 本申请提供了一种语句生成方法、装置、终端设备及存储介质,适用于计算机技术领域,该方法包括:获取语料信息;根据所述语料信息以及预设的语料组合顺序信息,生成多个初始语句;根据多个所述初始语句以及预设的语料库,进行语义分析计算,得到语义错误率;根据所述多个初始语句、所述语义错误率以及预设的错误率阈值,对初始语句进行调整,生成多个目的语句。本申请根据词汇内容与预设的词汇组合顺序,生成带有语料信息的语句,通过对生成的语句进行特征提取与语义特征的分析运算,判定生成语句的语义准确性,从而确保用于供人工智能模型训练的语句的数量与准确性,有效解决通过人工对文本内容中的语料进行标注的效率低下以及准确性不高的问题。

    语法改错质量评估方法和系统

    公开(公告)号:CN113128204B

    公开(公告)日:2024-11-01

    申请号:CN202110393905.X

    申请日:2021-04-13

    申请人: 清华大学

    摘要: 本发明实施例提供一种语法改错质量评估方法和系统,其中所述方法包括:基于给定输入句子和若干个语法改错结果,采用一个预训练语言模型构建给定输入句子和语法改错结果的词语向量表示;针对于每个语法改错结果中的词语向量,采用节点交互注意力机制从其他若干个语法改错结果中获取能够验证当前语法改错结果的词语的语法改错线索,并采用节点选择注意力机制将每条语法改错结果词语的语法改错线索进行整合,得到语法改错证据;利用所述语法改错证据,对当前语法改错结果进行质量评估。本发明实施例通过设计的注意力机制能够在不同的语法改错结果中找到有利于验证当前语法改错结果质量的语法改错证据,从而对当前语法改错结果进行质量评估。

    一种端到端的无监督对抗性文本改写方法及装置

    公开(公告)号:CN118862893A

    公开(公告)日:2024-10-29

    申请号:CN202410626077.3

    申请日:2024-05-20

    申请人: 山东大学

    摘要: 本发明属于自然语言处理的技术领域,更具体地,涉及一种端到端的无监督对抗性文本改写方法及装置。该方法包括:构建端到端的对抗性文本改写模型,包括改写条件生成器和条件文本改写器;在训练阶段,将原始样本输入对抗性文本改写模型,引入对抗性判别器获取原始样本的监督标签及对抗性文本改写模型输出的改写文本的标签,将标签与监督标签不一致的改写文本确定为对抗性样本,并利用原始样本和对抗性样本训练对抗性文本改写模型;在应用阶段,将原始文本输入训练好的对抗性文本改写模型中,以生成符合相应控制条件的对抗性文本。本发明能够以端到端的方式生成对抗性样本,从而能够以数据增强的方式提升下游任务模型的鲁棒性。

    基于多显示器协同的文本评阅方法及系统

    公开(公告)号:CN118862829A

    公开(公告)日:2024-10-29

    申请号:CN202410847844.3

    申请日:2024-06-27

    摘要: 本发明涉及文本处理技术领域,具体为基于多显示器协同的文本评阅方法及系统。首先提取文本内容并将其数字化,构建存储关键信息词语的术语词库,包括资质、项目、技术和价格词语;使用比对算法将文本数据与术语词库中的词语比对,判断文本中的关键信息语句,并根据关键词类型对其进行颜色标注;检查文本中的格式、文字和计算错误,并标注错误表述;构建多显示界面显示策略,分别显示文本原件、关键信息和错误信息,对文本进行评阅;使用RSA非对称加密算法加密评阅后的文本数据,公钥加密,私钥解密。本发明能大幅提高评阅效率和质量。