发明公开
- 专利标题: 一种基于统计机器学习的生物芯片数据特征工程算法
-
申请号: CN202210403504.2申请日: 2022-04-18
-
公开(公告)号: CN114724633A公开(公告)日: 2022-07-08
- 发明人: 王恒 , 薛松 , 连锋
- 申请人: 上海交通大学医学院附属仁济医院
- 申请人地址: 上海市黄浦区山东中路145号
- 专利权人: 上海交通大学医学院附属仁济医院
- 当前专利权人: 上海交通大学医学院附属仁济医院
- 当前专利权人地址: 上海市黄浦区山东中路145号
- 代理机构: 上海骁象知识产权代理有限公司
- 代理商 赵峰
- 主分类号: G16B35/00
- IPC分类号: G16B35/00 ; G06F17/16 ; G16B20/00
摘要:
一种基于统计机器学习的生物芯片数据特征工程算法,包括以下步骤:生成数据矩阵;进行z‑score标准化;计算值,筛选大值基因数据;生成相关系数矩阵;筛选基因对;计算复相关系数;标记基因复相关系数改变。本发明有利于在大量生物芯片数据中,分析数据之间的相关性,利用特征选择的方法根据需求选取反映数据组间差异的统计量F值较大的一定数目的基因。本发明利用相关分析统计量相关系数、偏相关系数和复相关系数进行特征选择,有利于进一步减少数据维度,且有利于推测不同实验处理条件下,两两基因表达之间的相关关系改变。