发明公开
CN101639840A 网络信息语义结构识别方法和装置
无效 - 撤回
- 专利标题: 网络信息语义结构识别方法和装置
- 专利标题(英): Method and device for identifying semantic structure of network information
-
申请号: CN200810142630.7申请日: 2008-07-29
-
公开(公告)号: CN101639840A公开(公告)日: 2010-02-03
- 发明人: 华天清 , 齐勇挺
- 申请人: 华天清
- 申请人地址: 广东省深圳市南山区兴南路48号21A
- 专利权人: 华天清
- 当前专利权人: 华天清
- 当前专利权人地址: 广东省深圳市南山区兴南路48号21A
- 主分类号: G06F17/30
- IPC分类号: G06F17/30 ; G06F17/27
摘要:
本发明公开了一种网络信息语义结构识别方法和装置,所述语义结构包括多个语义相关的网络页面信息内容的语义注解、被注解的信息的属性、语义注解之间的关系。通过定义样本页面的所述语义结构,在系统内部存储成语义结构树;生成语义树识别指令和语义树合法性识别指令;经验证后将语义结构描述文件和语义树识别指令文件和语义树合法性识别文件存储到外存储器。本发明定义和识别出的网络页面信息的语义结构可以被信息提取、全文搜索和语义搜索、商业情报挖掘、信息聚合、网络知识库等系统使用。