发明公开
- 专利标题: 一种数据资源的信息目录主题库分类方法
-
申请号: CN202110659501.0申请日: 2021-06-11
-
公开(公告)号: CN113342975A公开(公告)日: 2021-09-03
- 发明人: 陈白雪 , 张律 , 杨洋 , 吴胤杰 , 周国栋 , 汪涛
- 申请人: 江苏卓易信息科技股份有限公司 , 南京百敖软件有限公司 , 上海百之敖信息科技有限公司 , 昆山百敖电子科技有限公司
- 申请人地址: 江苏省无锡市宜兴市新街街道兴业路298号; ; ;
- 专利权人: 江苏卓易信息科技股份有限公司,南京百敖软件有限公司,上海百之敖信息科技有限公司,昆山百敖电子科技有限公司
- 当前专利权人: 江苏卓易信息科技股份有限公司,南京百敖软件有限公司,上海百之敖信息科技有限公司,昆山百敖电子科技有限公司
- 当前专利权人地址: 江苏省无锡市宜兴市新街街道兴业路298号; ; ;
- 代理机构: 无锡知初知识产权代理事务所
- 代理商 高春涛
- 主分类号: G06F16/35
- IPC分类号: G06F16/35 ; G06F40/216 ; G06K9/62
摘要:
本发明公开了一种数据资源的信息目录主题库分类方法,涉及大数据管理技术领域。包括以下步骤:1)采集数据资源的信息目录样本作为样本数据;2)对样本数据进行标记,标记所用标签为拟定的主题库名称;3)基于自然语言处理方法将标签进行向量化处理,基于机器学习方法训练分类模型,使用分类模型进行数据资源的信息目录主题库分类,划分主题库;4)调整样本数据内容和标签类别,优化分类模型。本申请结合自然语言处理的方法,将划分主题库转化为文本分类问题,不需要人工去总结标签体系规则,能够批量对主题库进行分类,提高了资源的有效利用率。同时结合本问题的特点对文本特征做了改造,相比改造之前分类的准确性得到显著提升。