提取网页内容的方法、装置及系统

    公开(公告)号:CN104866512B

    公开(公告)日:2018-09-07

    申请号:CN201410067190.9

    申请日:2014-02-26

    IPC分类号: G06F17/30

    摘要: 本发明涉及一种提取网页内容的方法、装置及系统,其方法包括:响应移动客户端在浏览器上触发的网页浏览指令,获取对应的网页;解析网页,获取网页脚本中标签的DOM节点;从DOM节点中获取插件标签节点;当插件标签节点对应的插件标签为预定类型标签时,提取插件标签对应的插件资源。本发明可在网页尚未真正渲染时完成符合特定协议规范的内容的提取,由此提高了网页预定内容的提取速度,同时也提高了网页的展示速度,此外,由于本方案可以不依赖后台服务器而是在浏览器终端侧实现插件资源的提取,在技术上易于实现,可降低开发成本。

    解析器生成
    5.
    发明公开

    公开(公告)号:CN105531672A

    公开(公告)日:2016-04-27

    申请号:CN201480050603.0

    申请日:2014-06-30

    IPC分类号: G06F9/44 G06F17/22 G06F17/27

    摘要: 生成用于解析数据对象的输入流(504)的数据解析器(418)包括:接收表示限定以层级组织的多个对象的分层数据格式(105,205)的信息(502),所述对象包括表示数据对象的一个或多个模式对象、以及每个与一个或多个模式对象相关联的一个或多个容器对象;以及处理所接收到的信息以形成所述数据解析器。所述处理包括:确定所述输入流中连续数据对象之间的容许转换;将一个或多个数据操作与每个所确定的容许转换相关联;以及存储用于配置处理器以执行所述数据解析器的规范。

    信息处理设备、信息提取方法、程序和信息处理系统

    公开(公告)号:CN102054024A

    公开(公告)日:2011-05-11

    申请号:CN201010540061.9

    申请日:2010-11-02

    申请人: 索尼公司

    发明人: 礒津政明

    IPC分类号: G06F17/30

    CPC分类号: G06F17/272 G06F17/2247

    摘要: 本发明公开了一种信息处理设备、信息提取方法、程序和信息处理系统,该信息处理设备包括:数据存储单元,存储用于从使用标记语言写成的文档中提取的信息的至少两个规则;选择单元,根据使用标记语言写成的输入文档的至少一个部分中特定字符串的出现频率,来从数据存储单元中所存储的至少两个规则中选择要应用于所述部分的规则;以及提取单元,使用由选择单元所选择的规则来从所述部分中提取信息。

    分析结构化数据
    9.
    发明授权

    公开(公告)号:CN1526104B

    公开(公告)日:2010-04-28

    申请号:CN02807089.5

    申请日:2002-01-30

    发明人: T·维科梅基

    IPC分类号: G06F17/27

    CPC分类号: G06F17/271 G06F17/272

    摘要: 本发明公开了一种用于分析结构化数据的方法,具有以下步骤:以第一计算机语言接收输入数据;根据输入数据生成多个令牌;使用包括规则集的文法语法编制上下文,所述上下文包括多个上下文分段,其形式为至少一个或多个上下文分段链,所述编制上下文的步骤包括以下子步骤:根据文法语法检测一个令牌在上下文中是否是容许的;如果所述令牌是容许的,则建立对应于该令牌的一个新上下文分段;以及为了恢复不容许令牌,还包括以下其他的步骤:为所述不容许令牌识别合适上下文,在该合适上下文中该令牌是容许的;和将此令牌应用于已识别的合适上下文中。

    结构化文档处理装置和方法

    公开(公告)号:CN100495401C

    公开(公告)日:2009-06-03

    申请号:CN200610164702.9

    申请日:2006-11-14

    IPC分类号: G06F17/30

    CPC分类号: G06F17/2247 G06F17/272

    摘要: 本发明的目标是提供一种能够使用诸如XML解析器之类的解析器来快速解析数字化的结构化文档的句法解析装置和方法。与实例文档和概要信息有关的统计信息被用于合并允许对结构化文档分段的多个状态转变,由此生成优化的自动机。在合并状态转变中,以ID列表的形式保存连续匹配状态转变,所述ID列表然后用于对连续状态转变数进行计数。此外,统计地获得包括嵌套元素的重复元素出现次数的模式。通过使用统计方法来解决XML中空白的变化。概要信息用于预先建立自动机,由此降低所述句法解析装置的初始开销。