-
公开(公告)号:CN113761906B
公开(公告)日:2024-06-18
申请号:CN202010686621.5
申请日:2020-07-16
申请人: 北京沃东天骏信息技术有限公司 , 北京京东世纪贸易有限公司
IPC分类号: G06F40/289 , G06F40/205
摘要: 本发明公开了解析文档的方法、装置、设备和计算机可读介质,涉及计算机技术领域。该方法的一具体实施方式包括:按照文档类型提取文档中的文本,并获取所述文档的格式特征;根据所述文档的格式特征和文本块特征,将所述文本划分为多个文本块;分析所述文本块中的文字,确定所述文本块的关键信息;依据所述文本块的关键信息,组成所述文档的解析文本。该实施方式能够准确地从文档中提取信息以形成所需文本,提高文本准确率。
-
公开(公告)号:CN113761906A
公开(公告)日:2021-12-07
申请号:CN202010686621.5
申请日:2020-07-16
申请人: 北京沃东天骏信息技术有限公司 , 北京京东世纪贸易有限公司
IPC分类号: G06F40/289 , G06F40/205
摘要: 本发明公开了解析文档的方法、装置、设备和计算机可读介质,涉及计算机技术领域。该方法的一具体实施方式包括:按照文档类型提取文档中的文本,并获取所述文档的格式特征;根据所述文档的格式特征和文本块特征,将所述文本划分为多个文本块;分析所述文本块中的文字,确定所述文本块的关键信息;依据所述文本块的关键信息,组成所述文档的解析文本。该实施方式能够准确地从文档中提取信息以形成所需文本,提高文本准确率。
-