-
公开(公告)号:CN113111869A
公开(公告)日:2021-07-13
申请号:CN202110368879.5
申请日:2021-04-06
Applicant: 上海交通大学
Abstract: 本发明提供了一种提取文字图片及其描述的方法和系统,包括:从文件中抽取图片及其相关描述;判断图片中是否包含子图,若不包含子图则返回图片及其描述并结束;若包含子图则基于YOLO4模型进行目标检测,对子图进行识别切割;基于YOLO4目标检测模型检测子图的图片序号;基于CRNN算法,识别检测到的图片序号;根据图片序号信息对文本描述进行拆分及重新组合;将切割好的图片与其对应的文本描述匹配并返回。本发明可抽取文件中的图片及其描述,若图片中包含子图,则将子图进行切割并与其对应描述对齐,实现了将文件中的图片数据进行整理的目的。
-
公开(公告)号:CN116484837A
公开(公告)日:2023-07-25
申请号:CN202310444562.4
申请日:2023-04-23
Applicant: 上海交通大学
IPC: G06F40/211 , G06F40/284 , G06F40/295 , G06F40/194 , G06F40/18 , G06F40/186 , G06N3/0455 , G06N3/042 , G06N3/0475 , G06N3/0985
Abstract: 本发明提供了一种表格数据的文本描述生成方法及系统,包括:获取训练样本数据并进行预处理;构建文本生成模型,将预处理后的训练样本数据作为文本生成模型的输入进行预训练;对训练样本数据中的原始表格数据进行实体检测,并对检测到的实体进行掩膜处理,得到对应掩膜提示模版数据;根据掩膜提示模版数据和文本生成模型预训练的模型参数进行训练,重构表格相关的背景知识信息及模型微调,得到最终的文本生成模型;将预处理后得训练样本数据输入最终的文本生成模型,进而生成表格数据的文本描述。本发明在少量样本的情况下无需通过大量人工标注通过采集相关背景知识即可用于生成对于相关表格内容的相应描述。快速了解文章信息,提高研究效率。
-
公开(公告)号:CN116415565A
公开(公告)日:2023-07-11
申请号:CN202310396068.5
申请日:2023-04-13
Applicant: 上海交通大学
IPC: G06F40/211 , G06F40/205 , G06F40/295 , G06F16/33 , G06N20/00
Abstract: 本发明提供了一种根据学术表格及其选中内容生成描述的方法及系统,包括:解析抽取PDF学术文献中的表格、表格背景知识以及表格内容相关的描述文本,并进行匹配;基于表格背景知识构建领域知识库,并对表格背景知识以及表格内容相关的描述文本进行预处理,将表格进行序列化处理得到序列化表格数据;使用预设模板拼接用户关注的预设表格中的信息和表格,构建关注的序列化表格数据;基于关注的序列化表格数据和领域知识库获得关键背景信息,基于获得的关键背景信息和关注的序列化表格数据生成序列化字符串;利用序列化字符串以及表格内容相关的描述文本训练文本生成模型,得到训练后的文本生成模型;利用训练后的文本生成模型预测并生成表格相关描述。
-
公开(公告)号:CN113111869B
公开(公告)日:2022-12-09
申请号:CN202110368879.5
申请日:2021-04-06
Applicant: 上海交通大学
IPC: G06V30/14 , G06V20/62 , G06V30/148 , G06V30/19
Abstract: 本发明提供了一种提取文字图片及其描述的方法和系统,包括:从文件中抽取图片及其相关描述;判断图片中是否包含子图,若不包含子图则返回图片及其描述并结束;若包含子图则基于YOLO4模型进行目标检测,对子图进行识别切割;基于YOLO4目标检测模型检测子图的图片序号;基于CRNN算法,识别检测到的图片序号;根据图片序号信息对文本描述进行拆分及重新组合;将切割好的图片与其对应的文本描述匹配并返回。本发明可抽取文件中的图片及其描述,若图片中包含子图,则将子图进行切割并与其对应描述对齐,实现了将文件中的图片数据进行整理的目的。
-
-
-