一种面向主流微博网站微博ID的采集方法及工具

    公开(公告)号:CN103440139A

    公开(公告)日:2013-12-11

    申请号:CN201310412348.7

    申请日:2013-09-11

    Abstract: 一种面向主流微博网站微博ID的采集方法及工具,系统架构分为两个层次,分别为采集层和存储层,层次和系统间的接口清晰,每层内部都由若干模块组成,模块之间的松耦合,有利于每层功能的扩展。采集层实现认证用户微博ID的爬取以及长期的认证用户粉丝ID的采集;存储层实现将微博ID在本地进行数据库存储,并对外提供开放式的微博ID检索功能。该系统的用户可以是任何基于微博数据的第三方应用的开发人员,利用该系统提供的微博ID进行进一步的微博内容抓取、分析等相关第三方应用的开发;也可以是微博网站的管理人员,利用该系统提供的微博ID进行相关统计,从而对微博相关指标进行分析,如微博活跃程度分析、微博影响力分析等。

    基于PDF文件的表格提取方法和装置

    公开(公告)号:CN105988979B

    公开(公告)日:2018-11-16

    申请号:CN201510083646.5

    申请日:2015-02-16

    Abstract: 本发明提供一种基于PDF文件的表格提取方法和装置,通过解析获得PDF文件中的各文字的文字信息和各线条的线条信息之后,根据线条位置信息对从该PDF文件的同一页中所提取的横向线条进行排序,并判断两相邻横向线条是否处于该页的同一表格中,根据线条信息对处于该页的同一表格中的各横向线条进行表格绘制,以及在绘制的表格中,根据线条信息对从所述页中所提取的各纵向线条进行填充,最后在绘制的表格中,根据各文字的文字信息,将文字信息中的文字字符信息填充在横向线条和纵向线条所构成的单元格中与文字位置信息相对应的位置。由于考虑了表格的横向线条和纵向线条的信息,从而提高了从PDF文件中提取表格的准确度。

    基于PDF文件的表格提取方法和装置

    公开(公告)号:CN105988979A

    公开(公告)日:2016-10-05

    申请号:CN201510083646.5

    申请日:2015-02-16

    Abstract: 本发明提供一种基于PDF文件的表格提取方法和装置,通过解析获得PDF文件中的各文字的文字信息和各线条的线条信息之后,根据线条位置信息对从该PDF文件的同一页中所提取的横向线条进行排序,并判断两相邻横向线条是否处于该页的同一表格中,根据线条信息对处于该页的同一表格中的各横向线条进行表格绘制,以及在绘制的表格中,根据线条信息对从所述页中所提取的各纵向线条进行填充,最后在绘制的表格中,根据各文字的文字信息,将文字信息中的文字字符信息填充在横向线条和纵向线条所构成的单元格中与文字位置信息相对应的位置。由于考虑了表格的横向线条和纵向线条的信息,从而提高了从PDF文件中提取表格的准确度。

Patent Agency Ranking