文档数字化中的语义规范化

    公开(公告)号:CN111263943B

    公开(公告)日:2023-10-10

    申请号:CN201880069289.9

    申请日:2018-11-30

    IPC分类号: G06F40/30

    摘要: 一种用于规范化文档图像中的键的方法,包括:基于候选键在语义上与键可互换,识别与文档图像中的对象相对应的候选键为键本体数据中的键。文档图像的每个对象的上下文、位置和样式在文档元数据中表示。将候选键规范化为规范化形式。确定对应于规范化形式的键类,并且评估指示该键类代表候选键的可能性的置信度分数。在验证时用键类更新语义数据库,以增强对未来文档的处理。

    文档数字化中的语义规范化
    2.
    发明公开

    公开(公告)号:CN111263943A

    公开(公告)日:2020-06-09

    申请号:CN201880069289.9

    申请日:2018-11-30

    IPC分类号: G06F40/30

    摘要: 一种用于规范化文档图像中的键的方法,包括:基于候选键在语义上与键可互换,识别与文档图像中的对象相对应的候选键为键本体数据中的键。文档图像的每个对象的上下文、位置和样式在文档元数据中表示。将候选键规范化为规范化形式。确定对应于规范化形式的键类,并且评估指示该键类代表候选键的可能性的置信度分数。在验证时用键类更新语义数据库,以增强对未来文档的处理。