-
公开(公告)号:CN119046444A
公开(公告)日:2024-11-29
申请号:CN202411533982.0
申请日:2024-10-31
Applicant: 之江实验室
IPC: G06F16/332
Abstract: 本发明公开了一种基于大模型的科学文献字段抽取方法及系统,包括:将科学文献(document)切分成若干片段(chunks);迭代生成亟待抽取的字段的答案,并排除chunks中不包含亟待抽取的字段的片段;之后一边生成候选答案,一边通过差异对比的方式,排除不同chunk中的冗余答案信息,排除由于幻觉导致输出的错误答案信息,并在迭代过程中融合包含正确答案的chunk,解决了针对不同片段回答零散不易整合的问题;该方法和系统在有限计算资源的条件下,能够最大发挥生成大模型对科学文献的抽取性能。
-
公开(公告)号:CN119046444B
公开(公告)日:2025-05-06
申请号:CN202411533982.0
申请日:2024-10-31
Applicant: 之江实验室
IPC: G06F16/3329
Abstract: 本发明公开了一种基于大模型的科学文献字段抽取方法及系统,包括:将科学文献(document)切分成若干片段(chunks);迭代生成亟待抽取的字段的答案,并排除chunks中不包含亟待抽取的字段的片段;之后一边生成候选答案,一边通过差异对比的方式,排除不同chunk中的冗余答案信息,排除由于幻觉导致输出的错误答案信息,并在迭代过程中融合包含正确答案的chunk,解决了针对不同片段回答零散不易整合的问题;该方法和系统在有限计算资源的条件下,能够最大发挥生成大模型对科学文献的抽取性能。
-
公开(公告)号:CN119441805A
公开(公告)日:2025-02-14
申请号:CN202411481596.1
申请日:2024-10-23
Applicant: 之江实验室
IPC: G06F18/21 , G06F18/214 , G06N3/045 , G06N3/084 , G06V10/774 , G06V10/776 , G06V10/82
Abstract: 本发明提供一种训练数据有效性评估方法、系统及装置,所述方法包括:获取训练集,所述训练集为从待评估数据中均匀降采样所得;获取测试集,所述测试集包括至少1个基准测试集和至少1个关联测试集;用所述训练集训练一个探针模型;用所述测试集对所述探针模型进行测试,记录测试指标;根据所述测试指标作观测图,所述作观测图包括:以基准测试集测试指标为横轴、关联测试集测试指标为纵轴建立直角坐标系;根据所述测试指标在所述直角坐标系中画出关键点;根据所述观测图对待评估数据做出有效性评价。本发明的优点在于:可以用很低的算力,迅速给出数据有效性评估,能提高模型研发迭代效率,尤其是对前沿的复杂模型,增益更明显。
-
公开(公告)号:CN118799908B
公开(公告)日:2025-01-07
申请号:CN202411290372.2
申请日:2024-09-14
Applicant: 之江实验室
IPC: G06V30/416 , G06V30/26
Abstract: 本发明公开了一种文献目录自动识别方法及装置,该方法包括:获取待处理文献;将所述待处理文献转换为若干张图像;基于版面分析模型对所述图像进行版面分析得到图像中各文字区域的类别和包围框坐标;所述类别至少包括章节标题和普通文本;将所述图像及图像中各文字区域的包围框坐标输入文字识别模型,得到包围框内的文字;仅保留类别为章节标题和普通文本的内容;基于大语言模型对保留的章节标题及章节标题对应的普通文本进行置信度分析,筛选出置信度大于预设阈值的章节标题,生成目录。本发明可以提高文献目录识别的准确率。
-
公开(公告)号:CN119089879A
公开(公告)日:2024-12-06
申请号:CN202411586235.3
申请日:2024-11-08
Applicant: 之江实验室
IPC: G06F40/177 , G06F40/12
Abstract: 本发明公开了一种表格图像及表格LaTeX代码生成方法和装置,所述方法包括:确定表格维度参数,以生成对应表格维度的LaTeX表格创建代码;将LaTeX表格创建代码及数据所属领域填入提示词模板,将该提示词输入大语言模型,输出新的LaTeX表格创建代码;新的LaTeX表格创建代码中,原有代表各单元格内容的占位符将被替换为数据所属领域的表头或相应数据;所述新的LaTeX表格创建代码中,对其中的单元格进行随机合并,得到表格LaTeX代码;利用渲染工具生成表格LaTeX代码对应的表格图像。本发明结合了计算机视觉和大语言模型的各自优势,利用图像、文本等多种模态信息,实现了 的大规模自动生成,对表格识别技术研究、文献数字化等领域具有重要意义。
-
公开(公告)号:CN119357335A
公开(公告)日:2025-01-24
申请号:CN202411910214.2
申请日:2024-12-24
Applicant: 之江实验室
IPC: G06F16/332 , G06F16/335 , G06F16/34 , G06N3/09
Abstract: 本发明公开了一种基于大语言模型驱动的学术论文检索方法、设备、介质,包括:根据输入的检索请求,通过若干学术论文数据库检索得到初步学术论文检索结果;对初步学术论文检索结果进行合并,并按相关性、热度、时间进行加权排序处理;将排序后的初步学术论文检索结果输入至预先训练好的第一大语言模型中,得到学术论文的文章摘要以及相似学术论文对比分析结果;其中,第一大语言模型的训练过程包括:构建包括摘要生成、问答、关键词提取、逻辑推理、信息抽取和文献综述生成在内的多样化任务样本,构建总损失函数以此训练第一大语言模型;所述总损失函数为摘要生成、问答、关键词提取、逻辑推理、信息抽取、文献综述损失函数的加权和。
-
公开(公告)号:CN118799908A
公开(公告)日:2024-10-18
申请号:CN202411290372.2
申请日:2024-09-14
Applicant: 之江实验室
IPC: G06V30/416 , G06V30/26
Abstract: 本发明公开了一种文献目录自动识别方法及装置,该方法包括:获取待处理文献;将所述待处理文献转换为若干张图像;基于版面分析模型对所述图像进行版面分析得到图像中各文字区域的类别和包围框坐标;所述类别至少包括章节标题和普通文本;将所述图像及图像中各文字区域的包围框坐标输入文字识别模型,得到包围框内的文字;仅保留类别为章节标题和普通文本的内容;基于大语言模型对保留的章节标题及章节标题对应的普通文本进行置信度分析,筛选出置信度大于预设阈值的章节标题,生成目录。本发明可以提高文献目录识别的准确率。
-
公开(公告)号:CN119311880A
公开(公告)日:2025-01-14
申请号:CN202411798842.6
申请日:2024-12-09
Applicant: 之江实验室
IPC: G06F16/35 , G06F16/334 , G06F16/332 , G06F40/30 , G06N5/04 , G06N3/0455
Abstract: 本发明公开了一种多模态文献数据提取方法、装置及介质。该方法首先通过标准化处理文献,得到一个包含文献目录、作者信息、段落文本、段落布局、表格LaTeX代码、公式LaTeX代码和/或图像描述的结构化文档;接着,从结构化文档中根据关键词和/或向量化检索策略,针对文本、公式、表格和图像进行片段的相关检索。检索后的片段通过相关性排序进行优化,缩减需要进入大模型处理的片段数量。最后,基于用户提取需求以及排序片段,对大语言模型进行问答配置,通过提示工程技术生成结构化的回答,并确保这些结果可以通过原始片段溯源,保障问答结果的可用性,必要时提醒用户对无法溯源的部分进行核实和处理。
-
公开(公告)号:CN119107660A
公开(公告)日:2024-12-10
申请号:CN202411549300.5
申请日:2024-11-01
Applicant: 之江实验室
IPC: G06V30/41 , G06V30/14 , G06V30/19 , G06F40/186 , G06F40/258 , G06F40/30
Abstract: 本发明公开了一种基于多模态信息的论文排序方法、系统、电子设备、介质,所述方法包括:将待处理的论文PDF文档按页拆分,并将每页保存为图像数据;对每页对应的图像数据进行处理,得到每一版面区域类别以及对应的包围框坐标、文字字段;对每页中的包围框坐标进行归一化及偏移处理,对归一化及偏移处理后的包围框坐标按照从上到下、从左到右的顺序进行排序;设置无效版面区域类别,并删除,得到全文粗排序结果;设置提示词模板,将全文粗排序结果填入提示词模板后输入至大语言模型,得到全文精排序结果。
-
-
-
-
-
-
-
-