一种档案编研方法、装置、设备及存储介质

    公开(公告)号:CN116757172B

    公开(公告)日:2024-07-23

    申请号:CN202310739187.6

    申请日:2023-06-21

    摘要: 本申请公开了一种档案编研方法、装置、设备及存储介质,涉及档案编研技术领域,包括:从已确定摘要的第一预设档案中挑选一个档案作为提示档案,并基于所述提示档案以及所述提示档案的摘要之间的对应关系构建相应的档案‑摘要示例模板;获取还未确定摘要的第二预设档案,并基于所述档案‑摘要示例模板调用预设语言生成模型接口生成所述第二预设档案的摘要以得到语料库数据集进行模型训练以得到摘要提取模型,并利用所述摘要提取模型对待编撰档案进行关键信息提取以得到所述待编撰档案的目标摘要;基于文档编撰规则指令选择对应的编撰规则对所述目标摘要进行编撰以得到对应的编研文档。这样一来,可根据用户的指令自动化完成档案编研工作。

    一种自然语言驱动的小样本图像生成系统、方法及存储介质

    公开(公告)号:CN118154715A

    公开(公告)日:2024-06-07

    申请号:CN202410409021.2

    申请日:2024-04-07

    发明人: 郭冬升 段强 姜凯

    摘要: 本发明属于人工智能与计算机视觉领域,具体涉及一种自然语言驱动的小样本图像生成系统,通过输入由一个形容词和一个类别词的形式构成的词汇文本并对词汇文本进行初始化学习,以将词汇文本转换成词汇向量,有助于提升文生图扩散模型对词汇描述中复杂和特定属性的学习能力,从而达到充分学习的效果。通过训练模块利用文本反演方法对文生图扩散模型进行训练,有助于提高输入文本与生成图像的一致性,减少过拟合现象,从而提升文生图扩散模型泛化能力和多样性生成效果。并且通过将输入的词汇文本和编辑任务文本进行拼接处理,有助于使用少量样本,模型也能够学习到该个体的多种表现形式,极大地增强了基于少量数据的个性化图像生成能力。

    一种面向大语言模型的重复内容生成检测及优化方法

    公开(公告)号:CN118095246A

    公开(公告)日:2024-05-28

    申请号:CN202410050828.1

    申请日:2024-01-15

    IPC分类号: G06F40/194

    摘要: 本发明涉及自然语言处理技术领域,具体为一种面向大语言模型的重复内容生成检测及优化方法,包括以下步骤:借助预训练模型将模型新生成的句子向量化;将向量化后的句子存储在向量库中;在向量数据库中搜索与新句子的句向量的相似度高于预设阈值的已有句子向量;有单句达到第一阈值时,则判定有单句重复;如果连续两个新句子向量与数据库中上文连续的两句向量相似度均超过第二阈值,则判定语言模型已经生成完毕并开始重复输出整片文章;处理重复并输出;有益效果为:通过实时监测句子向量的相似性判断模型输出是否存在重复,并在必要时中止输出,可以有效优化大语言模型的生成效果,避免重复内容的生成。

    一种基于信息抽取的大语言模型幻觉检测方法及系统

    公开(公告)号:CN117875327A

    公开(公告)日:2024-04-12

    申请号:CN202410086518.5

    申请日:2024-01-22

    IPC分类号: G06F40/295 G06F40/289

    摘要: 本发明涉及计算机科学技术领域,具体为一种基于信息抽取的大语言模型幻觉检测方法及系统,包括以下步骤:针对关键信息以及对应的大语言模型生成相关内容;基于命名实体识别模型检测出实体,计算生成内容实体与关键信息对应的实体差集,进而定位生成内容中的虚假句子;有益效果为:本发明提出的基于信息抽取的大语言模型幻觉检测方法及系统,通过命名实体识别模型检测出实体,然后计算生成内容虚假实体,进而定位生成内容中的虚假句子,并利用本地知识库等外部真实信息库对这些候选虚假句子进行二次判断得到真正虚假句子以及对应的真实信息,最后基于生成的内容、虚假句子以及真实信息构建提示,进而基于大语言模型进行幻觉修复。

    一种专业领域问答数据生成和数据量扩充的方法

    公开(公告)号:CN117131172A

    公开(公告)日:2023-11-28

    申请号:CN202310981944.0

    申请日:2023-08-07

    摘要: 本发明涉及自然语言处理技术领域,具体为一种专业领域问答数据生成和数据量扩充的方法,包括以下步骤:利用通用语言模型,对数据集中的文本和问答数据进行处理,包括专业文本同义改写、利用专业文本生成口语问答数据以及口语问答数据量扩充;有益效果为:本发明提出的专业领域问答数据生成和数据量扩充的方法,利用新数据集对法学垂类模型训练,得到最终模型。或利用LoRA和外挂知识库的方法,在原有模型的基础上加入处理相关专业知识的能力。实现专业领域数据生成和数据扩充,从而解决垂直领域数据量缺乏的问题,提高模型的准确度和性能。同时,本发明的方法简单有效,易于实现和推广,具有较高的实用性和经济效益。

    一种基于提示限定背景的中文语言模型对话系统和方法

    公开(公告)号:CN116467426A

    公开(公告)日:2023-07-21

    申请号:CN202310554443.4

    申请日:2023-05-17

    摘要: 本发明涉及人工智能技术领域,具体为一种基于提示限定背景的中文语言模型对话系统和方法,包括以下步骤:搭建中文背景知识库;对背景知识库中的限定词进行分级使对输入的匹配过程能够按照层次逐渐推进,根据上级的方向进行下级探索匹配时只对当前方向的背景限定词进行匹配,减少计算量的同时缩短模型响应时间;根据输入在知识库中进行搜索匹配相关的背景限定词;有益效果为:本发明提出的基于提示限定背景的中文语言模型对话系统和方法,在模型生成最终输出之前,根据输入给模型生成中间背景提示并将背景提示与输入一并传送给模型来生成最终输出。

    一种可控的长文本生成方法及系统

    公开(公告)号:CN118012982A

    公开(公告)日:2024-05-10

    申请号:CN202410162390.6

    申请日:2024-02-05

    摘要: 本发明涉及人工智能领域,具体提供了一种可控的长文本生成方法及系统,包括检索和结构化模块、内容生成模块和控制校验模块,所述检索和结构化模块进行输入控制,对用户的诉求进行拆解和补充,生成内容的大体框架,指导模型生成方向;所述内容生成模块借助大模型进行内容生成,负责接受原始输入或矫正后的输入,生成段落或句子粒度文本,供控制校验模块进行校验;控制校验模块为生成的文本校验过程,是生成过程的控制逻辑实现。与现有技术相比,本发明无需进行大模型的重新训练,减少模型对数据、算力的依赖,使其更符合真实场景,降低模型的使用门槛。