-
公开(公告)号:CN110059875A
公开(公告)日:2019-07-26
申请号:CN201910295219.1
申请日:2019-04-12
Applicant: 湖北工业大学
Abstract: 本发明公开了一种基于分布式鲸鱼优化算法的公共自行车需求量预测方法,首先读取原始公共自行车数据集Dataset,存储在HDFS中;初始化RDD数据集和鲸鱼种群Whale,将RDD作map转换处理;根据鲸鱼初始位置值计算出适应度值fitness;根据参数选择鲸鱼捕食的策略;在Spark平台上,根据策略公式更新鲸鱼位置,然后根据公式计算出新的适应度值,并找出最好的值和当前最优值比较,若优于则代替;若满足终止条件则找出最好的鲸鱼的位置,否则回到步骤4;根据所选出的最优特征子集,使用随机森林回归模型和未来的天气数据、时间数据对站点的公共自行车需求进行预测。本发明使用基于分布式鲸鱼优化算法的特征子集优化,应用Spark分布式平台上对其进行优化,提高分类性能和运行效率。
-
公开(公告)号:CN110020711A
公开(公告)日:2019-07-16
申请号:CN201910225827.5
申请日:2019-03-25
Applicant: 湖北工业大学
IPC: G06N3/00
Abstract: 本发明公开了一种采用灰狼优化算法的大数据分析方法,将所应用的大数据集每一条数据作为可行性解,每一头狼都代表一种解,单次迭代的α狼决定局部最优解。经过多次的迭代计算之后选中的α狼代表全局最优解。主要步骤设定灰狼算法的初始参数;随机产生初代狼群,并将初代狼群按适应度值进行划分,选出最佳的三匹狼作为α、β、δ狼,剩余的全部是ω狼;当达到最大的迭代次数后,输出的α狼代表的则是全局最优解。本发明有着更高的搜素全局最优解的性能,计算速度快。
-
公开(公告)号:CN108280211A
公开(公告)日:2018-07-13
申请号:CN201810092766.5
申请日:2018-01-31
Applicant: 湖北工业大学
Abstract: 本发明公开一种文本特征向量的确定方法及系统、文本分类方法及系统。确定方法包括:获取训练文本集;采用卡方检验方法提取文本特征;构建水波群并初始化;选出当前最优水波并判断适应度值是否小于适应度阈值;若否,确定最优文本特征向量;若是,进行传播处理并计算适应度值;判断水波适应度值是否增大;若是,用传播处理后的水波代替传播处理前的水波;否则保留传播处理前的水波;根据各第二判断结果更新水波群及迭代次数,并重新确定当前最优水波;判断迭代次数是否小于迭代阈值;若是则判断当前最优水波的适应度值是否达到适应度阈值;否则确定最优文本特征向量。本发明提供的方法及系统能够在保证分类的精度的前提下降低文本特征向量的维数。
-
公开(公告)号:CN109840551B
公开(公告)日:2022-03-15
申请号:CN201910030755.9
申请日:2019-01-14
Applicant: 湖北工业大学
Abstract: 本发明公开了一种用于机器学习模型训练的优化随机森林参数的方法,首先将整个蚂蚁种群划分为若干个子种群;然后将每一个子种群对应RDD中的一个分区,并在一个分区中指定独立进化;最后利用迁移算子在各子种群之间交换信息。相比于传统的网格搜索,基于Spark的并行蚁狮算法可以高效找到更优参数组合以提高随机森林的分类精度,且在大数据分布式Spark平台下,寻优计算速度快,加速效果明显,可以作为云计算平台的下一代参数优化器。
-
公开(公告)号:CN108280211B
公开(公告)日:2020-07-07
申请号:CN201810092766.5
申请日:2018-01-31
Applicant: 湖北工业大学
Abstract: 本发明公开一种文本特征向量的确定方法及系统、文本分类方法及系统。确定方法包括:获取训练文本集;采用卡方检验方法提取文本特征;构建水波群并初始化;选出当前最优水波并判断适应度值是否小于适应度阈值;若否,确定最优文本特征向量;若是,进行传播处理并计算适应度值;判断水波适应度值是否增大;若是,用传播处理后的水波代替传播处理前的水波;否则保留传播处理前的水波;根据各第二判断结果更新水波群及迭代次数,并重新确定当前最优水波;判断迭代次数是否小于迭代阈值;若是则判断当前最优水波的适应度值是否达到适应度阈值;否则确定最优文本特征向量。本发明提供的方法及系统能够在保证分类的精度的前提下降低文本特征向量的维数。
-
公开(公告)号:CN110059875B
公开(公告)日:2023-02-17
申请号:CN201910295219.1
申请日:2019-04-12
Applicant: 湖北工业大学
IPC: G06Q10/04 , G06Q10/0631 , G06Q50/30
Abstract: 本发明公开了一种基于分布式鲸鱼优化算法的公共自行车需求量预测方法,首先读取原始公共自行车数据集Dataset,存储在HDFS中;初始化RDD数据集和鲸鱼种群Whale,将RDD作map转换处理;根据鲸鱼初始位置值计算出适应度值fitness;根据参数选择鲸鱼捕食的策略;在Spark平台上,根据策略公式更新鲸鱼位置,然后根据公式计算出新的适应度值,并找出最好的值和当前最优值比较,若优于则代替;若满足终止条件则找出最好的鲸鱼的位置,否则回到步骤4;根据所选出的最优特征子集,使用随机森林回归模型和未来的天气数据、时间数据对站点的公共自行车需求进行预测。本发明使用基于分布式鲸鱼优化算法的特征子集优化,应用Spark分布式平台上对其进行优化,提高分类性能和运行效率。
-
公开(公告)号:CN109840551A
公开(公告)日:2019-06-04
申请号:CN201910030755.9
申请日:2019-01-14
Applicant: 湖北工业大学
Abstract: 本发明公开了一种用于机器学习模型训练的优化随机森林参数的方法,首先将整个蚂蚁种群划分为若干个子种群;然后将每一个子种群对应RDD中的一个分区,并在一个分区中指定独立进化;最后利用迁移算子在各子种群之间交换信息。相比于传统的网格搜索,基于Spark的并行蚁狮算法可以高效找到更优参数组合以提高随机森林的分类精度,且在大数据分布式Spark平台下,寻优计算速度快,加速效果明显,可以作为云计算平台的下一代参数优化器。
-
公开(公告)号:CN110020435B
公开(公告)日:2023-04-07
申请号:CN201910265124.5
申请日:2019-04-03
Applicant: 湖北工业大学
IPC: G06F16/35 , G06F40/216 , G06F40/289 , G06N3/006
Abstract: 本发明公开了一种采用并行二进制蝙蝠算法优化文本特征选择的方法,该方法利用传统的特征选择方法对原始特征进行预选,在此基础上使用蝙蝠算法以二进制编码形式对预选特征进行优选,并以分类准确率作为个体的适应度。但当文本信息数据量大时,单机执行时间漫长,根据这一缺点,把蝙蝠算法和Spark并行计算框架相结合,提出了Spark处理框架下的文本特征选择算法SBATFS。将蝙蝠算法良好的寻优搜索能力和分布式高效的计算速度相结合,实现对文本特征选择优化模型的高效求解。
-
公开(公告)号:CN110020435A
公开(公告)日:2019-07-16
申请号:CN201910265124.5
申请日:2019-04-03
Applicant: 湖北工业大学
Abstract: 本发明公开了一种采用并行二进制蝙蝠算法优化文本特征选择的方法,该方法利用传统的特征选择方法对原始特征进行预选,在此基础上使用蝙蝠算法以二进制编码形式对预选特征进行优选,并以分类准确率作为个体的适应度。但当文本信息数据量大时,单机执行时间漫长,根据这一缺点,把蝙蝠算法和Spark并行计算框架相结合,提出了Spark处理框架下的文本特征选择算法SBATFS。将蝙蝠算法良好的寻优搜索能力和分布式高效的计算速度相结合,实现对文本特征选择优化模型的高效求解。
-
公开(公告)号:CN109871934A
公开(公告)日:2019-06-11
申请号:CN201910040185.1
申请日:2019-01-16
Applicant: 湖北工业大学
IPC: G06N3/00
Abstract: 本发明公开了一种基于Spark分布式的并行二进制飞蛾扑火算法的特征选择方法,首先读取原始数据集D,存储在HDFS中;然后初始化RDD数据集和飞蛾种群M,将RDD作map转换处理;根据M计算出适应度值OM;更新火焰的数量,求出飞蛾与其对应火焰的距离;在Spark分布式平台上根据公式更新飞蛾位置,然后根据螺旋公式计算出新的适应度值OM,并找出最好的值和飞蛾比较,若优于则代替;最后判断,若满足终止条件则找出最好的飞蛾的位置,否则回到步骤4。本发明使用二进制飞蛾扑火算法的特征选择,应用Spark分布式平台上对其进行优化,提高分类性能和运行效率。
-
-
-
-
-
-
-
-
-