一种基于文本数据读取的方法和系统

发明授权

请登陆查看更多内容

专利标题： 一种基于文本数据读取的方法和系统
申请号： CN202110767562.9

申请日： 2021-07-07
公开(公告)号： CN113626385B

公开(公告)日： 2022-07-15
发明人: 周成祖 , 林文楷 , 吴文 , 陈涛涛 , 朱海勇 , 蓝坤宏
申请人： 厦门市美亚柏科信息股份有限公司
申请人地址： 福建省厦门市思明区软件园二期观日路12号102-402单元
专利权人： 厦门市美亚柏科信息股份有限公司
当前专利权人： 厦门市美亚柏科信息股份有限公司
当前专利权人地址： 福建省厦门市思明区软件园二期观日路12号102-402单元
代理机构： 厦门福贝知识产权代理事务所
代理商 郭涵炜
主分类号： G06F16/14
IPC分类号： G06F16/14 ; G06F16/31 ; G06F16/33

摘要：

本发明给出了一种基于文本数据读取的方法和系统，包括分析过滤重复文件并将关联的文件合并归类至对应数据集合Fn中；比对待提取文本文件中属性集合与属性列表以根据其相似程度赋值处理引擎，并形成文件的属性分析结果集合；响应于属性分析结果集合与待提取文本文件中的内容分析集合的匹配度超过第一阈值，利用属性对应的特处理引擎提取文本数据。该方法和系统可以自动适配已知特征和未知特征的文本文件数据，调取相应的数据提取引擎，实现文本文件类型原始数据的自动识别和解析入库，提高文本文件的提取效率和准确性，提升大数据分析能力。

公开/授权文献

CN113626385A 一种基于文本数据读取的方法和系统公开/授权日：2021-11-09

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F16/00	信息检索；数据库结构；文件系统结构
G06F16/10	.•文件系统；文件服务器
G06F16/14	..••基于文件元数据检索文件的细节