发明授权
- 专利标题: 一种数据提取方法、装置及介质
-
申请号: CN201910960391.4申请日: 2019-10-10
-
公开(公告)号: CN110851675B公开(公告)日: 2022-05-17
- 发明人: 王海滨 , 王存远 , 周成祖 , 林文楷 , 鄢小征 , 朱海勇
- 申请人: 厦门市美亚柏科信息股份有限公司
- 申请人地址: 福建省厦门市软件园二期观日路12号102-402单元
- 专利权人: 厦门市美亚柏科信息股份有限公司
- 当前专利权人: 厦门市美亚柏科信息股份有限公司
- 当前专利权人地址: 福建省厦门市软件园二期观日路12号102-402单元
- 主分类号: G06F16/906
- IPC分类号: G06F16/906 ; G06F16/90
摘要:
本发明提供了一种数据提取方法、装置及存储介质,基于复杂特征自适应匹配方法和可变滑动窗口方法进行数据的提取,该方法首先从多个数据源中获取海量的数据后进行聚类,并为聚类后的每一类别数据设置唯一的数据标签;然后根据所述数据标签判断该类别数据是否为已知类型的数据,如果是,则使用复杂特征自适应匹配方法对该类别数据进行特征提取,如果否,则使用可变滑动窗口方法该类别数据进行特征提取,并将结果保存在数据库中。本发明通过复杂特征自适应匹配算法精准快速地提取已知类型数据中的有价值信息,通过可变滑动窗口算法,对未知类型原始数据进行特征循环比对,减少了有价值数据的漏提比例,提升大数据分析和核心线索快速定位的能力。
公开/授权文献
- CN110851675A 一种数据提取方法、装置及介质 公开/授权日:2020-02-28