发明公开
- 专利标题: 一种科技成果数据文本挖掘方法、电子设备及存储介质
-
申请号: CN202210046926.9申请日: 2022-01-14
-
公开(公告)号: CN116483993A公开(公告)日: 2023-07-25
- 发明人: 赵军愉 , 柴小亮 , 王强 , 徐松晓 , 杨伯青 , 杨超 , 董旭亮 , 马秣然 , 马晶晶 , 王辉 , 吕航
- 申请人: 国网河北省电力有限公司保定供电分公司 , 国家电网有限公司
- 申请人地址: 河北省保定市阳光北大街138号;
- 专利权人: 国网河北省电力有限公司保定供电分公司,国家电网有限公司
- 当前专利权人: 国网河北省电力有限公司保定供电分公司,国家电网有限公司
- 当前专利权人地址: 河北省保定市阳光北大街138号;
- 代理机构: 北京风雅颂专利代理有限公司
- 代理商 李弘
- 主分类号: G06F16/35
- IPC分类号: G06F16/35 ; G06F40/284
摘要:
本说明书实施例提供一种科技成果数据文本挖掘方法、电子设备及存储介质。所述方法包括:文本预处理,将一个高度概括的向量来表示文本数据,将所述文本数据集概括成一个向量集,所述向量集等同于一个二维表格,根据所述二维表格和所述文本数据特征进行文本预处理;文本特征标引,将预处理完成的文本数据进行分词,获取所述文本数据中的文本特征词;文本自动分类,取一个预分类的文本集作为训练集,分析训练集以导出分类模型,用一个检验过程对该分类模型求解,导出分类模型用于其它联机文本分类;文本聚类,对原始数据进行光谱嵌入,对维度归约后的文本空间运用聚类算法。