表格识别方法、装置和计算机设备

    公开(公告)号:CN116994276A

    公开(公告)日:2023-11-03

    申请号:CN202311092117.2

    申请日:2023-08-29

    发明人: 熊玉竹 周红林

    IPC分类号: G06V30/412 G06V30/42

    摘要: 本申请涉及表格识别方法、装置和计算机设备。所述方法包括:获取包含表格区域的文档;将所述文档输入至预设的表格结构预测模型,输出所述文档中的表格结构,其中,所述表格结构预测模型为通过样本文档与样本表格结构的对应关系训练获得;所述样本文档的获得方式包括提取初始样本文档中表格区域对应的栅格图形和矢量图形;确定所述栅格图形对应的样本表格结构;从所述矢量图形中解析文本及对应的位置信息,根据所述样本表格结构与所述文本及对应的位置信息,生成所述样本文档。采用本方法能够通过表格结构以及文本生成大量且标注统一的样本文档以用于表格结构预测模型的训练,保证了表格识别的准确性。

    问题数据的意图分类方法和装置
    2.
    发明公开

    公开(公告)号:CN118673151A

    公开(公告)日:2024-09-20

    申请号:CN202411019217.7

    申请日:2024-07-29

    摘要: 本申请涉及一种问题数据的意图分类方法和装置。所述方法包括:获取待分类的目标问题数据;对目标问题数据进行向量化处理,得到与目标问题数据对应的向量化结果;利用向量化结果从向量数据库中分别匹配得到在每种预设的意图类别下的相似样本数据;根据目标问题数据、相似样本数据以及相似样本数据对应的意图类别标签,生成第一提示语料;将第一提示语料输入至第一大语言模型,得到第一大语言模型生成的与目标问题数据对应的意图分类结果。采用本方法能够利用向量召回的方式选取得到与目标问题数据相似度较高的相似样本数据,为第一大语言模型学习问题数据的意图分类提供了强有力的参考消息,从而有助于第一大语言模型输出更精确的意图分类结果。

    文档信息解析方法、装置、计算机设备、存储介质

    公开(公告)号:CN117095422B

    公开(公告)日:2024-02-09

    申请号:CN202311337972.5

    申请日:2023-10-17

    摘要: 本公开涉及一种文档信息解析方法、装置、计算机设备、存储介质。所述方法包括:获取待解析文档,确定待解析文档中文档内容格式信息;基于文档内容格式信息和预先构建的版面识别模型,确定待解析文档中的格式区域以及每个格式区域对应的格式类别;对格式区域和所述内容信息所对应的位置信息进行交集计算,得到交集计算的结果;基于交集计算的结果将格式区域与待解析文档中内容信息进行匹配,并利用每个格式区域对应的格式类别以及所述内容信息所对应的位置信息对匹配的结果进行调整,得到待解析文档的解析结果。采用本方法能够适应不同类型的PDF的版面结构,并且准确的识别出PDF的解析结果。

    样本图像的生成方法、装置、计算机设备和存储介质

    公开(公告)号:CN117079084B

    公开(公告)日:2024-01-19

    申请号:CN202311331721.6

    申请日:2023-10-16

    发明人: 熊玉竹 柴玉倩

    IPC分类号: G06V10/774 G06V20/70

    摘要: 本申请涉及计算机视觉领域,特别是涉及一种样本图像的生成方法、装置、计算机设备和存储介质。所述方法包括:获取第一初始矢量图形,第一初始矢量图形包括元素及对应的属性信息;基于标注有第一标签的栅格图形,标注第一初始矢量图形,得到标注有第二标签的第二初始矢量图形,第一标签对应的标注区域与第二标签对应的标注区域满足预设区域重合度的要求;更改第二初始矢量图形的元素及对应的属性信息,生成第三初始矢量图形;转换第三初始矢量图形的图像格式,得到样本栅格图形;其中,样本栅格图形用于训练对象识别模型;对象识别模型用于根据输入的栅格图形,输出栅格图形中待识别的对象。采用本方法能够生成大量高质量的被标注样本图像。

    文档信息解析方法、装置、计算机设备、存储介质

    公开(公告)号:CN117095422A

    公开(公告)日:2023-11-21

    申请号:CN202311337972.5

    申请日:2023-10-17

    摘要: 本公开涉及一种文档信息解析方法、装置、计算机设备、存储介质。所述方法包括:获取待解析文档,确定待解析文档中文档内容格式信息;基于文档内容格式信息和预先构建的版面识别模型,确定待解析文档中的格式区域以及每个格式区域对应的格式类别;对格式区域和所述内容信息所对应的位置信息进行交集计算,得到交集计算的结果;基于交集计算的结果将格式区域与待解析文档中内容信息进行匹配,并利用每个格式区域对应的格式类别以及所述内容信息所对应的位置信息对匹配的结果进行调整,得到待解析文档的解析结果。采用本方法能够适应不同类型的PDF的版面结构,并且准确的识别出PDF的解析结果。

    样本图像的生成方法、装置、计算机设备和存储介质

    公开(公告)号:CN117079084A

    公开(公告)日:2023-11-17

    申请号:CN202311331721.6

    申请日:2023-10-16

    发明人: 熊玉竹 柴玉倩

    IPC分类号: G06V10/774 G06V20/70

    摘要: 本申请涉及计算机视觉领域,特别是涉及一种样本图像的生成方法、装置、计算机设备和存储介质。所述方法包括:获取第一初始矢量图形,第一初始矢量图形包括元素及对应的属性信息;基于标注有第一标签的栅格图形,标注第一初始矢量图形,得到标注有第二标签的第二初始矢量图形,第一标签对应的标注区域与第二标签对应的标注区域满足预设区域重合度的要求;更改第二初始矢量图形的元素及对应的属性信息,生成第三初始矢量图形;转换第三初始矢量图形的图像格式,得到样本栅格图形;其中,样本栅格图形用于训练对象识别模型;对象识别模型用于根据输入的栅格图形,输出栅格图形中待识别的对象。采用本方法能够生成大量高质量的被标注样本图像。

    一种边界框坐标区域的确定方法、装置、计算机设备

    公开(公告)号:CN117152761A

    公开(公告)日:2023-12-01

    申请号:CN202311122668.9

    申请日:2023-09-01

    发明人: 周红林 熊玉竹

    摘要: 本申请涉及一种边界框坐标区域的确定方法。所述方法包括:对待处理图像进行图像分割,得到目标对象的预测边界框的坐标区域;确定所述目标对象的像素面积;根据所述像素面积对应的预设缩放量对所述预测边界框进行缩放,得到第一边界框的坐标区域;获取人工平台标注后的所述目标对象的第二边界框的坐标区域;根据所述第一边界框的坐标区域、第二边界框的坐标区域,得到边界框的缩放系数;根据所述边界框的缩放系数、第一边界框的坐标区域确定目标边界框的坐标区域。采用本方法能够快速确定边界框的坐标区域。

    结构化查询代码语句的生成方法、装置和计算机设备

    公开(公告)号:CN118798127A

    公开(公告)日:2024-10-18

    申请号:CN202410983738.8

    申请日:2024-07-22

    IPC分类号: G06F40/103 G06F16/242

    摘要: 本申请涉及一种结构化查询代码语句的生成方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:接收数据交互请求;其中,所述数据交互请求包括对目标数据的交互操作对应的文本数据;将所述文本数据输入到预设的大语言模型中,得到所述数据交互请求对应的标准格式文本语句;其中,所述标准格式语句的数据格式包括下述中的至少一种:标识键、与标识键相对应的数据、筛选条件标识以及数据统计标识;利用所述标准格式文本语句,生成所述数据交互请求的结构化查询代码语句。采用本方法能够提高生成的结构化查询代码语句的准确性。

    一种信息提取方法、装置、计算机设备、存储介质

    公开(公告)号:CN117373046A

    公开(公告)日:2024-01-09

    申请号:CN202311440396.7

    申请日:2023-11-01

    发明人: 熊玉竹 周红林

    摘要: 本申请涉及一种信息提取方法、装置、计算机设备、存储介质。所述方法包括:获取待识别图片;将所述待识别图片输入到预设的文本行检测模型中,得到所述文本行检测模型输出的所述待识别图片中各文本内容的位置框;基于所述位置框,将所述待识别图片分割为多个子图片,确定所述子图片的图片信息;对所述子图片中的文本内容进行文本识别,得到所述多个子图片对应的文本信息、位置信息;将每个子图片对应的文本信息、位置信息和图片信息输入到类别预测模型中,确定所述每个子图片的关键信息;对所述每个子图片的关键信息进行拼接,得到待识别图片中的信息。采用本方法能够有效提取出文本中的关键信息。