文档元素确定的方法、装置、设备以及存储介质

    公开(公告)号:CN116416640A

    公开(公告)日:2023-07-11

    申请号:CN202211734615.8

    申请日:2022-12-30

    摘要: 本公开提供了一种文档元素确定的方法、装置、设备以及存储介质,涉及人工智能领域,尤其涉及文本图像处理领域。具体实现方案为:根据待识别文档提取文本特征向量、空间特征向量和图像特征向量,并获取文档表示向量;从文档表示向量中选取目标文档表示向量;将所述目标文档表示向量输入解码器进行解码,以获取文档元素文本框和所述文档元素文本框对应的元素类型。本公开实施例可以根据文本的内容和文本的空间分布确定文本框和对应的元素类型,实现对文档中元素的位置和类型进行识别。通过结合文档的图像、布局和语义的信息,可以充分利用跨模态信息,更准确地对文档布局进行分析,获取的文本框以及文本框的元素类型更准确。

    程序代码生成方法及装置、模型训练方法及装置

    公开(公告)号:CN116841506A

    公开(公告)日:2023-10-03

    申请号:CN202310804799.9

    申请日:2023-06-30

    IPC分类号: G06F8/10 G06F8/30 G06F9/455

    摘要: 本公开提供了一种程序代码生成方法、程序代码生成模型的训练方法、装置、电子设备、计算机可读存储介质和计算机程序产品,涉及人工智能技术领域,尤其涉及自然语言处理、大语言模型、智能对话技术领域。实现方案为:获取用户的问题文本;基于问题文本、每个第一预设工具的功能描述信息以及至少一个第一程序代码示例,确定至少一个目标工具;基于问题文本、至少一个目标工具中每个的功能描述信息以及至少一个第一程序代码示例,生成至少一个目标工具中每个的工具调用代码;以及基于至少一个目标工具中每个的工具调用代码,生成目标程序代码。

    基于图像的表格还原模型的训练方法及表格还原方法

    公开(公告)号:CN116152833A

    公开(公告)日:2023-05-23

    申请号:CN202211735420.5

    申请日:2022-12-30

    摘要: 本公开提供了一种基于图像的表格还原模型的训练方法及表格还原方法,涉及人工智能领域,具体涉及图像处理、深度学习和自然语言处理技术,具体实现方案为:获取表格图像的第一图像向量表示和表格图像中文本的第一文本向量表示和文本对应的位置向量表示,由表格还原模型对第一图像向量表示、第一文本向量表示和位置向量表示进行跨模态关注,得到第二图像向量表示和第二文本向量表示,输出表格图像的类别集合和检测框集合;基于类别集合和检测框集合,调整表格还原模型的模型参数,并继续训练直至得到最终的目标表格还原模型。由此,本公开获取收敛的目标表格还原模型,可以基于目标表格还原模型对表格还原,提高了对表格进行还原的准确率。

    布局表示网络的预训练方法、装置、电子设备和存储介质

    公开(公告)号:CN116090409A

    公开(公告)日:2023-05-09

    申请号:CN202211730634.3

    申请日:2022-12-30

    IPC分类号: G06F40/106 G06N3/045 G06N3/08

    摘要: 本公开提供了一种布局表示网络的预训练方法、装置、电子设备和存储介质,涉及深度学习、自然语言处理等人工智能技术领域。具体实现方案为:获取至少一个原始文档中多个元素各自的第一空间位置向量,以及对应的增强文档中多个元素各自的第二空间位置向量;将各第一空间位置向量输入布局表示网络,获取多个元素各自的第一布局特征向量;将各第二空间位置向量输入布局表示网络,获取多个元素各自的第二布局特征向量;根据两种布局特征向量,对布局表示网络进行预训练。实现了对布局表示网络的预训练,该网络输出的布局特征向量可以很好的表现文档的布局信息,从而将该网络应用于下游任务时,可以使得下游任务学到更多的布局信息,达到更好的效果。

    程序代码生成方法及装置、模型训练方法及装置

    公开(公告)号:CN116841506B

    公开(公告)日:2024-05-03

    申请号:CN202310804799.9

    申请日:2023-06-30

    IPC分类号: G06F8/10 G06F8/30 G06F9/455

    摘要: 本公开提供了一种程序代码生成方法、程序代码生成模型的训练方法、装置、电子设备、计算机可读存储介质和计算机程序产品,涉及人工智能技术领域,尤其涉及自然语言处理、大语言模型、智能对话技术领域。实现方案为:获取用户的问题文本;基于问题文本、每个第一预设工具的功能描述信息以及至少一个第一程序代码示例,确定至少一个目标工具;基于问题文本、至少一个目标工具中每个的功能描述信息以及至少一个第一程序代码示例,生成至少一个目标工具中每个的工具调用代码;以及基于至少一个目标工具中每个的工具调用代码,生成目标程序代码。

    数据处理方法、数据处理模型及其训练方法

    公开(公告)号:CN117744644A

    公开(公告)日:2024-03-22

    申请号:CN202311765827.7

    申请日:2023-12-20

    IPC分类号: G06F40/284 G06N3/0455

    摘要: 本公开提供了一种数据处理方法、数据处理模型及其训练方法,涉及人工智能领域,具体涉及自然语言处理、深度学习技术、大模型技术。实现方案为:确定输入数据,所述输入数据包括多个分词;根据门控矩阵确定所述多个分词中每个分词与多个专家网络中的每个专家网络之间的相关性,其中所述多个专家网络用于对所述多个分词进行强化;根据所述相关性以及每个专家网络的预设容量将所述多个分词以均匀的方式分配给所述多个专家网络,以对所述多个分词进行强化;根据经强化的所述多个分词确定数据处理结果。

    基于图像的表格还原模型的训练方法及表格还原方法

    公开(公告)号:CN116152833B

    公开(公告)日:2023-11-24

    申请号:CN202211735420.5

    申请日:2022-12-30

    摘要: 本公开提供了一种基于图像的表格还原模型的训练方法及表格还原方法,涉及人工智能领域,具体涉及图像处理、深度学习和自然语言处理技术,具体实现方案为:获取表格图像的第一图像向量表示和表格图像中文本的第一文本向量表示和文本对应的位置向量表示,由表格还原模型对第一图像向量表示、第一文本向量表示和位置向量表示进行跨模态关注,得到第二图像向量表示和第二文本向量表示,输出表格图像的类别集合和检测框集合;基于类别集合和检测框集合,调整表格还原模型的模型参数,并继续训练直至得到最终的目标表格还原模型。由此,本公开获取收敛的目标表格还原模型,可以基于目标(56)对比文件Xiang Shuai等.SAM: Self AttentionMechanism for Scene Text RecognitionBased on Swin Transformer《. InternationalConference on Multimedia Modeling》.2022,443-454.