一种基于统计机器学习的生物芯片数据特征工程算法
摘要:
一种基于统计机器学习的生物芯片数据特征工程算法,包括以下步骤:生成数据矩阵;进行z‑score标准化;计算值,筛选大值基因数据;生成相关系数矩阵;筛选基因对;计算复相关系数;标记基因复相关系数改变。本发明有利于在大量生物芯片数据中,分析数据之间的相关性,利用特征选择的方法根据需求选取反映数据组间差异的统计量F值较大的一定数目的基因。本发明利用相关分析统计量相关系数、偏相关系数和复相关系数进行特征选择,有利于进一步减少数据维度,且有利于推测不同实验处理条件下,两两基因表达之间的相关关系改变。
0/0