一种低甲基化水平的差异甲基化位点识别方法

    公开(公告)号:CN109887543A

    公开(公告)日:2019-06-14

    申请号:CN201910145275.7

    申请日:2019-02-27

    Applicant: 中南大学

    Abstract: 本发明提供了一种低甲基化水平的差异甲基化位点识别方法,包括以下步骤:S1、获取一种低甲基化水平疾病的多组甲基化芯片数据样本。S2、对多组甲基化芯片数据样本进行预处理,得到甲基化芯片数据集。S3、根据位点维度,将甲基化芯片数据集划分为多个甲基化芯片数据子集;将每一个甲基化芯片数据子集输入构建随机森林模型,迭代进行特征选择,输出甲基化芯片数据的疾病相关特征集。S4、对甲基化芯片数据的疾病相关特征集进行线性拟合处理,之后通过假设检验筛选出具有统计显著性的特征。能识别出传统方法不能筛选出的差异甲基化位点,并且找到的差异甲基化位点具有更好的类别判定性能和显著性意义。

    基于症状提取和特征表示的电子病历多标签分类方法

    公开(公告)号:CN109460473A

    公开(公告)日:2019-03-12

    申请号:CN201811388476.1

    申请日:2018-11-21

    Applicant: 中南大学

    Abstract: 本发明提供了一种基于症状提取和特征表示的电子病历多标签分类方法,考虑到疾病与症状以及症状间的关联关系对电子病历的疾病标签多分类问题的影响,采用两种不同的症状表征方法:使用TF-IDF构建症状向量以及使用word2vec学习症状向量。将从电子病历中抽取的两种症状向量序列分别作为所述两个双向LSTM模型的输入序列,训练两个双向LSTM模型;对于未知疾病标签的电子病历,将从其中提取的症状对应的两种症状向量构成两种症状向量序列,分别输入两个训练好的双向LSTM模型,得到两个概率向量;对两个概率向量进行加权组合,得到最终的分类向量。本方法分类效果和适用性好。

    DNA序列中重复区的识别方法和装置

    公开(公告)号:CN108763868A

    公开(公告)日:2018-11-06

    申请号:CN201810305435.5

    申请日:2018-04-08

    Applicant: 中南大学

    Abstract: 本发明提供一种DNA序列中重复区的识别方法和识别装置,其中方法包括:对构造的n‑item序列,在DNA序列中识别所述n‑item序列的出现次数;将出现次数大于预设阈值的n‑item序列作为重复区,并构造所有作为重复区的n‑item序列的n‑item序列集合;若所述n‑item序列集合中n‑item序列的个数不唯一,则根据预设规则对所述n‑item序列集合中两两之间的n‑item序列构造(n+1)‑item序列。本发明实施例只需要对构造出的DNA子序列进行识别,识别对象相比现有技术大大降低,其次获得重复区的过程也可以在识别过程中通过统计出现次数获得,识别效率得到了进一步提高,再通过预设规则从重复区中构造更长的DNA子序列,不需要将重复区先与单个碱基组合再逐个遍历整个DNA序列,能够大大提高基因组重复区的识别效率。

    基于双端读数insert size统计特征的scaffolding方法

    公开(公告)号:CN106355000B

    公开(公告)日:2018-10-16

    申请号:CN201610728996.7

    申请日:2016-08-25

    Applicant: 中南大学

    Abstract: 本发明公开了一种基于双端读数insert size统计特征的scaffolding方法,首先对双端读数比对到contig上的噪音进行预处理。接着构建scaffold图,图中每个节点代表一个contig;基于insert size分布估计两个节点之间比对上双端读数的期望值;再根据两个节点之间比对上双端读数的实际个数和期望值,确定两个节点之间是否存在边以及边的权重。然后采用迭代和线性规划的方法解决scaffold图中可能存在的冲突。最后利用广度优先遍历算法从scaffold图中确定scaffold。本发明简单易用,在不同的真实数据上表现出良好的scaffolding结果,较其它scaffolding方法具有更高的准确性。

    一种基于多元格兰杰检验的信号传导网络构建方法

    公开(公告)号:CN105825077B

    公开(公告)日:2018-10-09

    申请号:CN201610137995.5

    申请日:2016-03-14

    Applicant: 中南大学

    Abstract: 本发明公开了一种基于多元格兰杰检验的信号传导网络构建方法,对输入的时序基因表达数据进行二范数规范化;对二范数规范化后的t个时间片的基因表达数据,分别构建1~t‑1和2~t时序基因表达矩阵,并建立基于阶马尔卡夫的线性方程,通过奇异值分解计算获得系数矩阵和表达值矩阵,并根据所得的系数矩阵计算残差值Rss*;对每一个基因都将其时序基因表达打乱,并计算打乱后的残差值,获得残差分布Rss,对Rss*在Rss中进行排序,获得系数的显著性α。本发明的方法适用于真实的时序基因表达数据时间片过少的情况,并有效提高了有向推断的准确性。

    基于双端读数insert size分布的contig错误连接区域识别方法

    公开(公告)号:CN105787295B

    公开(公告)日:2018-03-06

    申请号:CN201610153531.3

    申请日:2016-03-17

    Applicant: 中南大学

    Abstract: 本发明公开了一种基于双端读数insert size分布的contig错误连接区域识别方法,包括以下步骤:1)输入contigs集合和双端读数文库,使用序列比对工具将双端读数文库的双端读数比对到contigs集合上,得到比对结果;2)根据比对结果,得到双端支持稀疏的区域;将这些区域作为错误连接的候选区域;3)并通过双端读数的分布检验对候选区域进行延伸,最终通过区域长度判定候选区域是否是错误连接位置;4)确定错误连接区域的边界。本发明方法具有较高的准确度,通过错误位点切割能够明显减少contig中的拼接错误,有效地提高了contig的质量。

    基于双向随机游走和多标签学习的miRNA-环境因子关系预测方法

    公开(公告)号:CN106485096A

    公开(公告)日:2017-03-08

    申请号:CN201610915233.3

    申请日:2016-10-20

    Applicant: 中南大学

    CPC classification number: G06F19/18

    Abstract: 本发明公开了一种基于双向随机游走和多标签学习的miRNA-环境因子关系预测方法。考虑到单一的生物数据的不完整,采用不同的生物数据和不同相似性度量方法分别计算miRNA和环境因子的相似性。另外,为了减少单个相似性度量噪声,本发明引入相似性矩阵融合方法来提高最终的miRNA和环境因子相似性可靠性。在此基础上,采用双向随机游走算法和多标签学习方法来预测潜在的miRNA-环境因子关系。本发明简单有效,通过与其他方法比较,及在已知数据集上测试表明,该发明在miRNA-环境因子潜在关系方面具有较好的预测性能。案例分析表明,本发明能够发现一些潜在的环境因子对应miRNA,能为生物学家进行miRNA-环境因子发现的进一步实验提供有价值的参考信息。

    一种基于多元格兰杰检验的信号传导网络构建方法

    公开(公告)号:CN105825077A

    公开(公告)日:2016-08-03

    申请号:CN201610137995.5

    申请日:2016-03-14

    Applicant: 中南大学

    CPC classification number: G06F19/18

    Abstract: 本发明公开了一种基于多元格兰杰检验的信号传导网络构建方法,对输入的时序基因表达数据进行二范数规范化;对二范数规范化后的t个时间片的基因表达数据,分别构建1~t?1和2~t时序基因表达矩阵,并建立基于阶马尔卡夫的线性方程,通过奇异值分解计算获得系数矩阵和表达值矩阵,并根据所得的系数矩阵计算残差值Rss*;对每一个基因都将其时序基因表达打乱,并计算打乱后的残差值,获得残差分布Rss,对Rss*在Rss中进行排序,获得系数的显著性α。本发明的方法适用于真实的时序基因表达数据时间片过少的情况,并有效提高了有向推断的准确性。

    一种基于推荐模型的miRNA靶基因预测方法

    公开(公告)号:CN105808976A

    公开(公告)日:2016-07-27

    申请号:CN201610120986.5

    申请日:2016-03-03

    Applicant: 中南大学

    CPC classification number: G06F19/20

    Abstract: 本发明公开了一种基于推荐模型的miRNA靶基因预测方法(miRTRS),利用已被实验验证过的miRNA靶基因数据构建miRNA与基因的二分图,并在此基础上,使用基于二分图的推荐算法来计算一个基因是miRNA靶基因的可能性,并在此推荐算法中引入了miRNA之间的序列相似性这一生物数据。最后通过推荐值降序排序,取其排名靠前的认为是miRNA靶基因关系。本发明简单易用,与已有的miRNA靶基因预测方法相比较,本发明提出的方法在预测的准确性、敏感度和特异性等方面都有明显提高,能为生物学家进行miRNA靶基因发现的实验和进一步研究提供有价值的参考信息。

    一种基于读数和距离分布的基因组Denovo序列拼接方法

    公开(公告)号:CN104200133A

    公开(公告)日:2014-12-10

    申请号:CN201410482300.8

    申请日:2014-09-19

    Applicant: 中南大学

    Abstract: 本发明公开了一种基于读数和距离分布的基因组De novo序列拼接方法,采用De Bruijn图存储读数之间的重叠关系,基于读数分布提出了一种新的打分函数用在contig构建、scaffolding和填充空白区域等步骤。该打分函数充分考虑了测序深度,k-mer频次以及在复杂重复区中insertsize的偏移。本发明简单易用,在不同的模拟和真实测序数据上表现出良好的拼接结果,较其他序列拼接方法具有更高的连续性和完整性。

Patent Agency Ranking