一种基于HDFS的海量小文件存储优化方法

    公开(公告)号:CN110018997B

    公开(公告)日:2021-07-23

    申请号:CN201910175055.9

    申请日:2019-03-08

    Abstract: 一种基于HDFS的海量小文件存储优化方法,属于存储性能优化领域,包括:初始化、文件访问状况分析、小文件分类暂存、小文件合并存储及回溯。方法针对文件的历史访问日志信息,对文件访问状况进行分析,计算文件之间的相关度,形成文件关联性映射集。根据所形成的文件关联性映射集,对小文件进行分类暂存,将相关度高的小文件暂存在一起,同时考虑了小文件的大小分布。最终对暂存的小文件进行合并存储,将小文件的原件及副本进行删除,将合并形成的大文件存储到HDFS当中。方法将原本存储于HDFS中的海量小文件通过合并的方式进行重存储,充分考虑了小文件的相关性和小文件的大小分布,有效地降低了名称结点的内存开销,提高了HDFS对小文件的存取效率。

    一种基于HDFS的海量小文件存储优化方法

    公开(公告)号:CN110018997A

    公开(公告)日:2019-07-16

    申请号:CN201910175055.9

    申请日:2019-03-08

    Abstract: 一种基于HDFS的海量小文件存储优化方法,属于存储性能优化领域,包括:初始化、文件访问状况分析、小文件分类暂存、小文件合并存储及回溯。方法针对文件的历史访问日志信息,对文件访问状况进行分析,计算文件之间的相关度,形成文件关联性映射集。根据所形成的文件关联性映射集,对小文件进行分类暂存,将相关度高的小文件暂存在一起,同时考虑了小文件的大小分布。最终对暂存的小文件进行合并存储,将小文件的原件及副本进行删除,将合并形成的大文件存储到HDFS当中。方法将原本存储于HDFS中的海量小文件通过合并的方式进行重存储,充分考虑了小文件的相关性和小文件的大小分布,有效地降低了名称结点的内存开销,提高了HDFS对小文件的存取效率。

    一种基于大数据的品牌数据智能识别诊断方法及系统

    公开(公告)号:CN118427779B

    公开(公告)日:2025-01-03

    申请号:CN202410510161.9

    申请日:2024-04-26

    Abstract: 本发明公开了一种基于大数据的品牌数据智能识别诊断方法及系统,包括获取品牌数据和品牌历史数据,对所述品牌数据进行预处理;对所述品牌数据进行多种类别的特征提取获得特征数据,对所述特征数据进行聚类分析获取诊断数据,对所述特征数据进行相关性分析获取评估数据;构建计算模型,根据所述品牌历史数据训练并测试模型,将所述诊断数据输入所述计算模型获得诊断结果,将所述评估数据输入所述计算模型获得评估结果;将所述诊断结果和所述评估结果结合分析,获得分析结果并输出。该方法不仅可以提高基于大数据的品牌数据智能识别诊断方法的精度,同时具有较好的可解释性,可以直接应用于大数据的品牌数据智能识别诊断系统中。

    一种基于LSTM自编码器的耕地闲置识别方法

    公开(公告)号:CN118628925A

    公开(公告)日:2024-09-10

    申请号:CN202410705819.1

    申请日:2024-06-03

    Abstract: 本发明公开了一种基于LSTM自编码器的耕地闲置识别方法,包括采集预设区域的时序数据,对所述时序数据进行预处理,对所述时序多光谱遥感图像进行逐月聚合并取中值获得时间段聚合时序HLS影像,对所述时序遥感影像进行逐月聚合并取低值获得时间段聚合时序SAR影像,根据所述时间段聚合时序HLS影像所述耕地特征,将土地覆被分成三种模式,根据所述三种模式分别构建LSTM自编码器模型,优化所述LSTM自编码器模型,将闲置耕地的所述植被指数输入LSTM自编码器模型确定残差分布阈值,将待识别数据输入LSTM自编码器模型,输出识别结果。该方法不仅可以提高基于LSTM自编码器的耕地闲置识别的精度,同时具有较好的可解释性,可以直接应用于耕地闲置识别系统中。

    一种多变量时间序列数据聚类方法

    公开(公告)号:CN111488924B

    公开(公告)日:2024-04-26

    申请号:CN202010265442.4

    申请日:2020-04-07

    Inventor: 王婷 崔运鹏 刘娟

    Abstract: 本发明公开了一种多变量时间序列数据聚类方法,包括对多变量时间序列数据进行归一化预处理;构建深度学习无监督学习模型稀疏自编码器,对多变量时间序列数据进行特征提取以构建新特征序列;获取样本数据新特征序列的聚类K值;基于欧式距离计算不同样本数据新特征序列之间的距离;对样本数据的新特征序列集进行聚类;根据聚类结果分析多变量时间序列数据的潜在模式。本发明通过稀疏自编码器模型和聚类方法,提高处理大规模数据的效率,并构建稀疏自编码器模型以提高模型对多变量时间序列数据提取新特征序列的性能,同时根据欧式距离构建了多变量距离计算模型以实现对多变量时间序列数据的聚类。

    基于时序遥感数据的弱监督LSTM循环神经网络稻田识别方法

    公开(公告)号:CN112836725A

    公开(公告)日:2021-05-25

    申请号:CN202110032036.8

    申请日:2021-01-11

    Abstract: 本发明公开了一种基于时序多光谱及微波遥感数据的弱监督LSTM循环神经网络稻田识别方,发明基于地面实测数据构建SAR标准时序曲线,并对SAR时序遥感数据进行DTW距离计算,依据DTW距离进行样本标注,构建高置信度的弱标签样本集,融合多光谱及SAR输入特征,基于LSTM的深度学习分类器采用弱标签样本加实测样本的训练集对分类器进行训练后提取预测结果中的水稻分类作为最终稻田识别结果。该方法可以用于像素级别的稻田识别预测,通过SAR曲线的DTW距离可标注获得高置信度的训练数据,减少对地面采样数据的依赖,可有效降低地面采样成本。

Patent Agency Ranking