一种从维基百科半结构化数据自动构建分类树的方法

    公开(公告)号:CN103778238A

    公开(公告)日:2014-05-07

    申请号:CN201410040234.9

    申请日:2014-01-27

    CPC classification number: G06F17/30938

    Abstract: 本发明公开了一种从维基百科半结构化数据自动构建分类树的方法,包括(1)半结构化数据的抽取,通过分析获取到页面的HTML,识别出含有半结构化数据的页面。(2)半结构化数据中上下位关系的抽取,依据维基目录页面的布局特点,获取其中包含的上下位关系;解析HTML元素,依据导航表的结构,获取表格中包含的上下位关系。(3)源于不同半结构化数据的上下位关系融合,依据抽取到的上下位关系集构建向无权简单图,然后基于图的深度优先遍历算法生成分类树。本发明能够自动抽取维基页面中的上下位关系,并构建分类树,减少领域专家构建的成本,充分重用了志愿者手工构建的上下位关系。

    一种从维基百科半结构化数据自动构建分类树的方法

    公开(公告)号:CN103778238B

    公开(公告)日:2015-03-04

    申请号:CN201410040234.9

    申请日:2014-01-27

    Abstract: 本发明公开了一种从维基百科半结构化数据自动构建分类树的方法,包括(1)半结构化数据的抽取,通过分析获取到页面的HTML,识别出含有半结构化数据的页面。(2)半结构化数据中上下位关系的抽取,依据维基目录页面的布局特点,获取其中包含的上下位关系;解析HTML元素,依据导航表的结构,获取表格中包含的上下位关系。(3)源于不同半结构化数据的上下位关系融合,依据抽取到的上下位关系集构建有向无权简单图,然后基于有向无权简单图的深度优先遍历算法生成分类树。本发明能够自动抽取维基页面中的上下位关系,并构建分类树,减少领域专家构建的成本,充分重用了志愿者手工构建的上下位关系。

Patent Agency Ranking