包装器的维护方法
    1.
    发明公开

    公开(公告)号:CN1588370A

    公开(公告)日:2005-03-02

    申请号:CN200410074546.8

    申请日:2004-09-08

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种包装器的维护方法,利用原包装器提取变化前Web中实体的数据项的标志特征;利用数据项标志特征遍历变化后的Web的HTML树,从中找出具有该数据项标志特征的数据项;找出同一实体的数据项,对其划分语义块,即按实体将数据项汇聚,并提取实体的数据项描述模式;用该模式匹配HTML同级子树中的其他实体的数据项描述模式;若过渡匹配,则递归处理所有的子节点为根的子树;若部分匹配则自动合并相邻子树;若完全匹配,则返回所有的语义块即相关子树;得出的语义块均与模式匹配,从中找出一个与模式匹配较好的,并从中重新生成新的抽取规则,即生成了新包装器。本发明提出了一套清晰的生成包装器的流程,可以很方便的和其他应用系统集成。

    包装器的生成方法
    2.
    发明授权

    公开(公告)号:CN1326078C

    公开(公告)日:2007-07-11

    申请号:CN200410074547.2

    申请日:2004-09-08

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种包装器的生成方法,将HTML文档格式解析为HTML树结构;使用DTD匹配HTML文档中具体实例,计算匹配关系;得出一条能够覆盖所有HTML文档中对应实例的路径,并搜索HTML树中的子树是否具有相似的子树,如果存在,则用能够覆盖所有相似的子树的路径来代替初始路径;以得到的路径为基础生成相应的信息抽取规则;利用抽取规则在其他HTML文档中抽取需要的数据,若其他HTML文档与前述结构有差别,则重新生成抽取规则;对所有的抽取规则合并,生成能够包含上述所有抽取规则所有情况的综合的抽取规则;将抽取规则导出即生成了包装器。本发明使得包装器能够脱离包装器生成系统,真正为应用程序方便地使用。

    包装器的维护方法
    3.
    发明授权

    公开(公告)号:CN100338609C

    公开(公告)日:2007-09-19

    申请号:CN200410074546.8

    申请日:2004-09-08

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种包装器的维护方法,利用原包装器提取变化前Web中实体的数据项的标志特征;利用数据项标志特征遍历变化后的Web的HTML树,从中找出具有该数据项标志特征的数据项;找出同一实体的数据项,对其划分语义块,即按实体将数据项汇聚,并提取实体的数据项描述模式;用该模式匹配HTML同级子树中的其他实体的数据项描述模式;若过渡匹配,则递归处理所有的子节点为根的子树;若部分匹配则自动合并相邻子树;若完全匹配,则返回所有的语义块即相关子树;得出的语义块均与模式匹配,从中找出一个与模式匹配较好的,并从中重新生成新的抽取规则,即生成了新包装器。本发明提出了一套清晰的生成包装器的流程,可以很方便的和其他应用系统集成。

    包装器的生成方法
    4.
    发明公开

    公开(公告)号:CN1588371A

    公开(公告)日:2005-03-02

    申请号:CN200410074547.2

    申请日:2004-09-08

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种包装器的生成方法,将HTML文档格式解析为TML树结构;使用DTD匹配HTML文档中具体实例,计算匹配关系;得出一条能够覆盖所有HTML文档中对应实例的路径,并搜索HTML树中的子树是否具有相似的子树,如果存在,则用能够覆盖所有相似的子树的路径来代替初始路径;以得到的路径为基础生成相应的信息抽取规则;利用抽取规则在其他HTML文档中抽取需要的数据,若其他HTML文档与前述结构有差别,则重新生成抽取规则;对所有的抽取规则合并,生成能够包含上述所有抽取规则所有情况的综合的抽取规则;将抽取规则导出即生成了包装器。本发明使得包装器能够脱离包装器生成系统,真正为应用程序方便地使用。