表格数据处理大语言模型的训练方法、装置、介质及设备

    公开(公告)号:CN118132969A

    公开(公告)日:2024-06-04

    申请号:CN202410340959.3

    申请日:2024-03-25

    摘要: 本发明涉及一种表格数据处理大语言模型的训练方法、装置、设备及介质,用以解决现有技术中的大语言模型对于表格数据处理的准确率低的问题,方法包括:获取表格问答数据,表格问答数据包括表格、问题和答案;将表格和问题输入智能问答模型中,以生成答案的拓展答案,基于表格、问题和拓展答案形成拓展训练数据;基于表格生成新的问题,将表格和新的问题输入智能问答模型中,基于不同的方式生成第一答案和第二答案;比对第一答案和第二答案以进行交叉验证,若通过交叉验证则基于表格、新的问题以及第一答案和/或第二答案形成生成训练数据;根据生成训练数据和拓展训练数据形成混合训练集对预训练模型进行训练,以获得表格数据处理大语言模型。

    一种公平高效的多对话系统测评系统及方法

    公开(公告)号:CN117271290A

    公开(公告)日:2023-12-22

    申请号:CN202311543827.2

    申请日:2023-11-20

    IPC分类号: G06F11/34 G06F11/30

    摘要: 本发明属于人工智能技术领域,涉及一种公平高效的多对话系统测评系统及方法,所述测评系统包括:人机交互窗口,用于供标注人员输入标注问题、显示多对话系统生成的各自的回复及供标注人员选择最佳回复;共享对话历史模块,用于存储历史输入的标注问题及其对应最佳回复以及最新输入的标注问题并将它们输入到对话系统中;多对话系统,用于生成各自的回复;回复处理模块,用于对回复进行处理并将处理后的回复发送到人机交互窗口;排名模块,用于确定多对话系统的排名;排行榜模块,用于更新多对话系统的排行榜。其与人工评测之间存在更强的相关性,且能同时完成多个对话系统的评测,更高效、更节省人力。

    基于分解-组合知识图谱的逻辑表达式确定方法及系统

    公开(公告)号:CN115905488A

    公开(公告)日:2023-04-04

    申请号:CN202211446572.3

    申请日:2022-11-18

    发明人: 张静 张灵溪 张鹏

    摘要: 本申请提出基于分解‑组合知识图谱的逻辑表达式确定方法及系统,所述方法包括:获取问句,并将所述问句分解为原子知识信息和逻辑形式;确定所述原子知识信息对应的关系候选集、类候选集和实体候选集;利用预先训练好的第一生成模型解析所述逻辑形式,得到所述逻辑形式对应的逻辑形式候选集;将所述原子知识信息对应的关系候选集、类候选集、实体候选集、所述逻辑形式对应的逻辑形式候选集组合,得到所述问句对应的逻辑表达式,供执行所述逻辑表达式从知识库中确定所述问句的答案。本申请提出的技术方案,可以快速准确的确定出逻辑表式,进而更好地回答泛化问题。

    面向应用的大语言模型调用接口系统、方法、设备及介质

    公开(公告)号:CN117829297B

    公开(公告)日:2024-08-09

    申请号:CN202410040583.4

    申请日:2024-01-11

    IPC分类号: G06N5/04 G06F9/448

    摘要: 本发明属于人工智能技术领域,涉及一种面向应用的大语言模型调用接口系统、方法、设备及介质,所述系统包括:人机交互窗口;解决方案库准备模块,其包括数据库、SoAPI库、SoAPI关系图、解决方案库、大语言模型、提示词库和代码虚拟执行环境;解决方案辅助推理模型,其包括解决方案准备子模块、程序生成子模块、程序执行子模块和答案生成子模块。其使得大语言模型能够理解并正确执行SoAPI之间存在的复杂的耦合嵌套关系,从而便于大语言模型通过复杂的执行逻辑来正确组合SoAPI以完成复杂任务。

    一种公平高效的多对话系统测评系统及方法

    公开(公告)号:CN117271290B

    公开(公告)日:2024-02-20

    申请号:CN202311543827.2

    申请日:2023-11-20

    IPC分类号: G06F11/34 G06F11/30

    摘要: 本发明属于人工智能技术领域,涉及一种公平高效的多对话系统测评系统及方法,所述测评系统包括:人机交互窗口,用于供标注人员输入标注问题、显示多对话系统生成的各自的回复及供标注人员选择最佳回复;共享对话历史模块,用于存储历史输入的标注问题及其对应最佳回复以及最新输入的标注问题并将它们输入到对话系统中;多对话系统,用于生成各自的回复;回复处理模块,用于对回复进行处理并将处理后的回复发送到人机交互窗口;排名模块,用于确定多对话系统的排名;排行榜模块,用于更新多对话系统的排行榜。其与人工评测之间存在更强的相关性,且能同时完成多个对话系统的评测,更高效、更节省人力。

    面向应用的大语言模型调用接口系统、方法、设备及介质

    公开(公告)号:CN117829297A

    公开(公告)日:2024-04-05

    申请号:CN202410040583.4

    申请日:2024-01-11

    IPC分类号: G06N5/04 G06F9/448

    摘要: 本发明属于人工智能技术领域,涉及一种面向应用的大语言模型调用接口系统、方法、设备及介质,所述系统包括:人机交互窗口;解决方案库准备模块,其包括数据库、SoAPI库、SoAPI关系图、解决方案库、大语言模型、提示词库和代码虚拟执行环境;解决方案辅助推理模型,其包括解决方案准备子模块、程序生成子模块、程序执行子模块和答案生成子模块。其使得大语言模型能够理解并正确执行SoAPI之间存在的复杂的耦合嵌套关系,从而便于大语言模型通过复杂的执行逻辑来正确组合SoAPI以完成复杂任务。

    一种基于领域的网络检索增强方法及系统

    公开(公告)号:CN116226496A

    公开(公告)日:2023-06-06

    申请号:CN202211685583.7

    申请日:2022-12-27

    IPC分类号: G06F16/9532 G06F16/953

    摘要: 本申请提出一种基于领域的网络检索增强方法及系统,所述方法包括:获取待检索内容,并确定所述待检索内容对应的各关键词;根据所述各关键词在预先建立的关键词库中筛选出与所述待检索内容匹配的领域;确定所述待检索内容在所述领域对应的领域词,然后将所述领域词添加到待检索内容中得到搜索字段;基于所述搜索字段进行网络检索,得到所述待检索内容的增强检索结果。本申请提出的技术方案,通过专业的领域词降低搜索引擎召回信息时的歧义,提高了信息召回时的准确率。

    一种面向对话式知识图谱问答的问题重写方法及设备

    公开(公告)号:CN116127085A

    公开(公告)日:2023-05-16

    申请号:CN202211348452.X

    申请日:2022-10-31

    发明人: 张鹏 张静 柯习睿

    摘要: 本发明提出一种面向对话式知识图谱问答的问题重写方法及设备,该方法构建了问题重写‑问题推理框架,首先根据会话历史生成一个完整的重写问题,然后通过现有的单轮知识图谱问答模型来推理答案。为了克服目标数据集上重写问题监督信号的缺失,该框架引入了一种知识增强的自训练机制,将问题重写器从另一个数据集迁移到当前的知识图谱和数据集上。该框架中的问题重写器与后续的问题推理过程分离,这使得问题重写器很容易与基于检索或基于语义解析的单轮知识图谱问答模型相结合。实验结果证明了该方法的有效性,并在对话式知识图谱问答数据集ConvQuestions上获得了最先进的结果。

    GNN编码器及基于图上下文学习的异常点检测方法

    公开(公告)号:CN113076738A

    公开(公告)日:2021-07-06

    申请号:CN202110385328.X

    申请日:2021-04-09

    摘要: 本申请提出了一种基于图上下文学习的异常点检测方法,涉及计算机网络信息技术领域,其中,该方法包括:提出了CoGCL框架,利用图上下文对比学习来衡量异常与正常节点与图上下文的距离。为了达到对比学习的目的,本专利设计了一个图编码器,它可以一定程度去除可疑链接的同时,学习图上下文的表示。为了缓解标注数据的稀缺性影响,本专利额外将CoGCL扩展为一种无需标注数据的自监督预训练框架CoGCL‑pre。该框架通过一种图扰乱策略,可以自动生成伪标签来进行自监督学习。采用上述方案的CoGCL框架明显优于现有各种对比方法;其无需监督数据的自监督版本CoGCL‑pre可以达到与完全监督版本CoGCL相当的效果,并且解决了标注数据稀缺性对监督学习的影响。