一种针对竖排文本的检测方法及装置

    公开(公告)号:CN115410207A

    公开(公告)日:2022-11-29

    申请号:CN202110588830.0

    申请日:2021-05-28

    Abstract: 本发明公开一种针对竖排文本的检测方法及装置,包括扫描待检测文本,确定换行符的位置,得到一个位置列表,并基于该位置列表,计算每行文字长度;截取连续t行中每行文字长度一致的文本,保留截取文本中的有效字符,得到保留文本;对保留文本进行分词,并根据得到第一分词结果,获取截取文本的初步检测结果;若初步检测结果判断截取文本为竖排文本,则将截取文本转换为二维的字符矩阵,并删除换行符,对该字符矩阵作转置,得到转置文本;对转置文本进行分词,并根据得到第二分词结果,获取截取文本的检测结果。本发明可确定竖排文字的区域,去除竖排文本中的干扰字符,并恢复成一般的横向文本,同时处理竖排文本中普遍存在的错别字现象。

    一种基于多数据源的论文数据爬取方法及系统

    公开(公告)号:CN110704713A

    公开(公告)日:2020-01-17

    申请号:CN201910916820.8

    申请日:2019-09-26

    Abstract: 本发明公开一种基于多数据源的论文数据爬取方法及系统,进行批量关键词论文数据抓取。爬取任务执行前,使用关键词或论文基本信息拼接URL,并将其添加至待抓取队列;执行时,程序分多个子爬取线程,分别从已经经过任务调度算法均衡的多个待爬取队列中取出任务进行源码抓取;执行后,从抓取回的网页源码中解析出所需要的字段,结果存储进数据库中,构建论文数据数据库。相比现有技术,本发明能够提供更高效且全面的论文爬取功能,在服务用户的检索需求时可以快速响应并且将各数据源的查询结果融合展示在用户面前,可以使用户无需对每个数据源的检索结果进行甄别与比对,极大地方便了用户的使用,节约了用户的时间。

    一种LTE多接口数据回填方法和装置

    公开(公告)号:CN106102090B

    公开(公告)日:2019-07-05

    申请号:CN201610421149.6

    申请日:2016-06-14

    Abstract: 本发明公开了一种LTE多接口数据回填方法,其特征在于,所述方法包括:采集S1‑MME或者S10接口消息,获取IMSI参数;采集所述S1‑MME接口消息中的至少一个全球唯一临时UE标识GUTI,并与所述IMSI参数建立UTI~IMSI映射表;获取所述S1‑MME接口消息中的会话参数,根据所述会话参数和所述GUTI~IMSI映射表关联所述S1‑MME接口与S6a接口;以及所述LTE中的至少一个接口根据共有关键参数与所述S1‑MME接口关联,回填数据。本发明公开的技术方案能够提高移动用户上网日志查询和网络安全事件追溯的准确性,而且可以提高身份信息的回填率和准确率,提高数据回填的效率。

Patent Agency Ranking