发明公开
- 专利标题: 信息提取方法、装置、电子设备、存储介质和程序产品
-
申请号: CN202411069422.4申请日: 2024-08-05
-
公开(公告)号: CN118886411A公开(公告)日: 2024-11-01
- 发明人: 请求不公布姓名 , 请求不公布姓名 , 请求不公布姓名
- 申请人: 上海壁仞科技股份有限公司
- 申请人地址: 上海市闵行区陈行公路2388号16幢13层1302室
- 专利权人: 上海壁仞科技股份有限公司
- 当前专利权人: 上海壁仞科技股份有限公司
- 当前专利权人地址: 上海市闵行区陈行公路2388号16幢13层1302室
- 代理机构: 北京路浩知识产权代理有限公司
- 代理商 孟紫琴
- 主分类号: G06F40/20
- IPC分类号: G06F40/20 ; G06F16/33
摘要:
本发明涉及数据处理技术领域,提供一种信息提取方法、装置、电子设备、存储介质和程序产品,其中方法包括:获取待提取信息的目标文件,并对所述目标文件的内容进行分割,得到多个文件块;基于第一首字符状态和第二首字符状态,对各文件块内的信息进行提取,得到所述各文件块的提取结果;基于所述各文件块的提取结果中包含的结构边界标识,对所述各文件块的提取结果进行分段,得到所述各文件块的分段结果;基于所述各文件块在所述目标文件中的顺序,对所述各文件块的分段结果进行拼接,得到所述目标文件的结构化信息。本发明能够移除文件分块处理的状态依赖,使得每个文件块可以独立和并行处理,从而提高信息提取效率,提升整体处理性能。