一种考虑拷贝数变异因素的基因组结构变异分型方法

    公开(公告)号:CN111583998B

    公开(公告)日:2023-05-02

    申请号:CN202010373524.0

    申请日:2020-05-06

    Abstract: 本发明公开了一种考虑拷贝数变异因素的基因组结构变异分型方法,输入序列比对文件和突变识别文件并统计记录各变异位点的特征值;根据输入文件提取特征值,从突变识别文件VCF中提取基因型作为分类监督,通过Python提取VCF文件中第八列type后的基因型信息,一行对应一个变异依次将特征值以空格分隔,基因型以分隔符存储到txt文件中;确定核函数和核函数参数;将数据分为M‑RVM模型的训练集和测试集;采用快速二类极大似然估计求解先验参数,采用最大期望估计算法求解核参数;输出分型结果、估计概率和总体精度。本方法全面理清了考虑拷贝数变异因素的基因组结构变异分型问题,利用多分类相关向量机设计了一种高准确率、高效率的解法。

    一种基于时序数据的在线监控数据质量方法

    公开(公告)号:CN111429022A

    公开(公告)日:2020-07-17

    申请号:CN202010269904.X

    申请日:2020-04-08

    Abstract: 本发明公开了一种基于时序数据的在线监控数据质量方法,输入包括数据质量状态、数据质量不合格率、数据产生时间的时序数据,对时序数据进行数值化预处理;分别采用SESOP、SESOP-MFI、STSSO和STSSO-MFIR方法计算统计量,训练监控模型;通过计算得到统计量序列,利用对统计量序列的监控,并根据情况设定平均运行步长获得控制极限;监控质量风险,根据被监控数据的输入,实现输入一条数据及监控一条数据的实时监控。本发明能够更为快速稳定的对不同阶段的数据质量情况进行监控,并对发生的质量恶化做出预警。

    一种针对不均衡数据的算法推荐方法

    公开(公告)号:CN109784395A

    公开(公告)日:2019-05-21

    申请号:CN201910013382.4

    申请日:2019-01-07

    Abstract: 本发明公开了一种针对不均衡数据的算法推荐方法,使用特征提取方法提取数据集的特征并对每一维特征分别进行标准化,从而得到数据集的元特征。然后使用AUC,Recall以及算法的运行时间来评估候选算法的性能。在收集元目标时,获取候选算法在不均衡数据集上的性能指标,对候选算法排序,并使用得分的方法将三个候选算法序列进行融合,最终得到元目标,即候选算法的排序序列。在给新数据集推荐算法时,通过特征提取方法获取新数据集的特征向量,使用标准化方法,对新数据集的特征向量进行标准化。然后使用KNN方法获取新数据集的K个近邻的候选算法序列,通过将这K个邻居的候选算法序列加和并重新排序,就得到了新数据集的候选算法序列。

    一种考虑拷贝数变异因素的基因组结构变异分型方法

    公开(公告)号:CN111583998A

    公开(公告)日:2020-08-25

    申请号:CN202010373524.0

    申请日:2020-05-06

    Abstract: 本发明公开了一种考虑拷贝数变异因素的基因组结构变异分型方法,输入序列比对文件和突变识别文件并统计记录各变异位点的特征值;根据输入文件提取特征值,从突变识别文件VCF中提取基因型作为分类监督,通过Python提取VCF文件中第八列type后的基因型信息,一行对应一个变异依次将特征值以空格分隔,基因型以分隔符存储到txt文件中;确定核函数和核函数参数;将数据分为M-RVM模型的训练集和测试集;采用快速二类极大似然估计求解先验参数,采用最大期望估计算法求解核参数;输出分型结果、估计概率和总体精度。本方法全面理清了考虑拷贝数变异因素的基因组结构变异分型问题,利用多分类相关向量机设计了一种高准确率、高效率的解法。

    一种T细胞受体序列motif组合识别检测方法、存储介质及设备

    公开(公告)号:CN113380324B

    公开(公告)日:2023-06-27

    申请号:CN202110536816.6

    申请日:2021-05-17

    Abstract: 本发明公开了一种T细胞受体序列motif组合识别检测方法、存储介质及设备,构建Tumor‑Health矩阵和Tissue‑Blood矩阵作为输入矩阵;以motif组合的类内类间距离可分性作为优化目标函数;设计双种群遗传算法,对输入矩阵中的每一motif列和label列进行相关性分析,采用点二列相关性作为衡量motif列和label列是否相关的指标;以优化目标函数作为算法优化目标,利相关性指标对输入矩阵的motif进行初步筛选,过滤掉不相关的motif列,通过遗传算法进行迭代计算,得到两组种群的优势解,取两组种群中适应度排前三的染色体作为最优解,并解码成为对应的motif集合,取对应集合的交集作为最终挖掘出的motif,完成识别检测。本发明能够为免疫治疗提供可能的生物标志物研究方向。

    一种基于采样和集成学习的软件更改缺陷预测方法

    公开(公告)号:CN107168868B

    公开(公告)日:2021-01-19

    申请号:CN201710213864.5

    申请日:2017-04-01

    Abstract: 本发明公开了一种基于采样和集成学习的软件更改缺陷预测方法,S1:根据软件对应的版本库提取分类实例集;S2:根据S1得到的分类实例集获得最佳的总分类模型;S3:根据软件更改实例以及S2得到的最佳的总分类模型获取该更改实例的类标签,即可判断此次更改是否引入缺陷。本发明可以解决软件更改缺陷预测中数据不均衡,预测效果不理想的问题。

    一种基于非线性集成模型的预测数据错误风险方法

    公开(公告)号:CN111461350B

    公开(公告)日:2022-12-09

    申请号:CN202010270673.4

    申请日:2020-04-08

    Abstract: 本发明公开了一种基于非线性集成模型的预测数据错误风险方法,对数据进行预处理;进行数据编码;基于编码数据构建GBDT框架下的数据错误风险预测模型,通过梯度提升算法将若干个CART树的结果进行加权求和后输出为最终结果;训练GBDT模型,取出某一时间段内的所有样本,将其和全部样本分别输入到训练好的GBDT模型中进行预测;根据训练好的GBDT模型,计算所有输入的风险因素的特征重要性;根据特征重要性从高到低进行排序;使用确定的参数,以新数据集的所有样本作为输入数据,训练新的GBDT模型并取出相同时间段内的所有样本,和全部样本分别输入到训练好的新GBDT模型中进行预测。本发明实现了使用非线性的集成模型对数据错误风险的更准确的预测。

    一种T细胞受体序列motif组合识别检测方法、存储介质及设备

    公开(公告)号:CN113380324A

    公开(公告)日:2021-09-10

    申请号:CN202110536816.6

    申请日:2021-05-17

    Abstract: 本发明公开了一种T细胞受体序列motif组合识别检测方法、存储介质及设备,构建Tumor‑Health矩阵和Tissue‑Blood矩阵作为输入矩阵;以motif组合的类内类间距离可分性作为优化目标函数;设计双种群遗传算法,对输入矩阵中的每一motif列和label列进行相关性分析,采用点二列相关性作为衡量motif列和label列是否相关的指标;以优化目标函数作为算法优化目标,利相关性指标对输入矩阵的motif进行初步筛选,过滤掉不相关的motif列,通过遗传算法进行迭代计算,得到两组种群的优势解,取两组种群中适应度排前三的染色体作为最优解,并解码成为对应的motif集合,取对应集合的交集作为最终挖掘出的motif,完成识别检测。本发明能够为免疫治疗提供可能的生物标志物研究方向。

    杂合变异下校正第三代测序数据中测序错误的混合方法

    公开(公告)号:CN111583997A

    公开(公告)日:2020-08-25

    申请号:CN202010373513.2

    申请日:2020-05-06

    Abstract: 本发明公开了一种杂合变异下校正第三代测序数据中测序错误的混合方法,输入数据为第二代测序数据和第三代测序数据,利用已有的比对软件和组装软件对输入数据进行处理,基于贝叶斯分类器原理对基因位点的杂合性进行判断,结合杂合判断的结果对第三代测序数据中的读段进行校正,解决了现有校正算法在处理杂合变异时的低准确度和无效性的问题。本发明在校正测序错误时考虑了杂合变异,设计了一系列概率模型对杂合性进行判断和分类,再针对不同的杂合性分类采用不同的校正策略,解决了已有校正方法遇到杂合变异时出现校正错误的问题。

Patent Agency Ranking