发明公开
- 专利标题: 一种基于NLP技术实现文本数据治理预处理的方法
-
申请号: CN202210674200.X申请日: 2022-06-15
-
公开(公告)号: CN115114399A公开(公告)日: 2022-09-27
- 发明人: 田一鸣 , 徐寒亭 , 朱震 , 赵翔 , 林潇 , 胡松
- 申请人: 安徽省交通规划设计研究总院股份有限公司 , 公路交通节能与环保技术及装备交通运输行业研发中心
- 申请人地址: 安徽省合肥市高新区香樟大道180号;
- 专利权人: 安徽省交通规划设计研究总院股份有限公司,公路交通节能与环保技术及装备交通运输行业研发中心
- 当前专利权人: 安徽省交通规划设计研究总院股份有限公司,公路交通节能与环保技术及装备交通运输行业研发中心
- 当前专利权人地址: 安徽省合肥市高新区香樟大道180号;
- 代理机构: 合肥中博知信知识产权代理有限公司
- 代理商 杨来宝
- 主分类号: G06F16/33
- IPC分类号: G06F16/33 ; G06F16/31 ; G06F16/35 ; G06F40/284 ; G06F40/30
摘要:
本发明公开了一种基于NLP技术实现文本数据治理预处理的方法,包括以下步骤:S1、收集文档集合;S2、基于业务关键字从步骤S1得到的文档集合中得到目标集合;S3、基于NLP技术对业务关键字和目标集合进行语义分析得到分析结果;S4、根据步骤S3得到的分析结果对所有业务数据进行分类;S5、基于NLP技术对各类业务数据分别进行特征提取和信息抽取;S6、对步骤S6提取的特征和抽取的信息进行有效性处理,根据有效性处理结果保留或剔除对应的业务数据。本发明提出一种基于人工智能领域中的NLP技术实现文本数据治理预处理的方法,能够大大提高海量数据分类和数据提取的速度和效率,同时能够大幅提高准确率。