-
公开(公告)号:CN116627320A
公开(公告)日:2023-08-22
申请号:CN202310374828.2
申请日:2023-04-10
申请人: 福建亿榕信息技术有限公司 , 国网信息通信产业集团有限公司
IPC分类号: G06F3/06 , G06F16/906 , G06F16/901 , G06F16/903
摘要: 本发明属于非结构化数据处理技术领域,具体的说是一种非结构化数据的存储、迁移和识别方法,所述方法包括以下步骤:S1:获取非结构化数据,为非结构化数据建立索引标签,并将索引标签保存到引导分区中;S2:对已经建立索引标签的非结构化数据进行分析,确定并拆分非结构化数据中相同的部分以及不同的部分,将拆分后的非结构化数据保存在存储区中;S3:将非结构化数据拆分后相同的部分保存在存储区中的冗余分区中,将非结构化数据拆分后不相同的部分保存在存储区中的总存储区中;本发明可对非结构化数据进行分析后分类合并存储,提高数据的存储压缩效率,以及便于数据的识别和迁移。
-
公开(公告)号:CN113360658A
公开(公告)日:2021-09-07
申请号:CN202110797260.6
申请日:2021-07-14
申请人: 福建亿榕信息技术有限公司 , 国网信息通信产业集团有限公司 , 国网信通亿力科技有限责任公司
IPC分类号: G06F16/35 , G06F40/216 , G06F40/242 , G06F40/284 , G06F40/289 , G06K9/62
摘要: 本发明公开了一种用于审计业务的文本自动分类方法,属于审计技术领域,包括以下步骤:S1、获取针对目标分类的相关文档集合,S2、将语料库分成训练集和测试集,S3、将文档转换为计算机可处理的特征向量,并调整特征向量中各值的权重。本发明中,能够对事先准备好分类语料做统计分析从而获得规律,构建出“分类模型”,再运用该“分类模型”对未知文本做所属分类的预测分析,实现自动分类,能够节省大量的人工,实现了文本自动分类,可用于支撑审计结果文档自动标签分类管理,不需要构建完全不同的分类系统,无需重复工作,具备可推广性。
-