一种模拟人群背景信息的基因测序数据仿真系统及方法

    公开(公告)号:CN110491441B

    公开(公告)日:2022-04-22

    申请号:CN201910370937.0

    申请日:2019-05-06

    Abstract: 本发明公开了一种模拟人群背景信息的基因测序数据仿真系统及方法,输入目标捕获区域文件、测序深度、七种变异类型、变异发生频率和变异在参考基因组上的坐标,根据测序深度确定模板数量,使用接受拒绝算法产生相应模板长度的概率分布,遍历每一条模板并对当前已经遍历完的模板数进行判断,当算法尚未遍历所有模板时,分别对取出的长度模板进行拷贝数变异模拟、单核苷酸位点变异模拟、基因融合模拟、串联重复模拟、倒位变异模拟、插入片段模拟和缺失片段模拟,生成读段并写入测序文件;当已经遍历完所有模板时,测序文件生成完毕;进行读段比对输出模拟的测序文件及其比对文件,仿真结束。本发明可以简便和快速的获得包含特定变异样本。

    基于机器学习策略的环形RNA识别方法

    公开(公告)号:CN111584006B

    公开(公告)日:2022-02-22

    申请号:CN202010373511.3

    申请日:2020-05-06

    Abstract: 本发明公开了一种基于机器学习策略的环形RNA识别方法,输入数据,在参考基因组上对每个候选环形RNA进行定位并提取这些环形RNA区域附近的Reads特征;使用提取好的特征训练有监督的机器学习模型;使用训练好的模型对候选环形RNA集合进行真假阳性分类,并输出最终的环形RNA。本发明属于一类机器学习过滤策略,具备机器学习过滤策略的优势,在临床实践中可以显著节省成本、时间等。

    一种考虑拷贝数变异因素的基因组结构变异分型方法

    公开(公告)号:CN111583998A

    公开(公告)日:2020-08-25

    申请号:CN202010373524.0

    申请日:2020-05-06

    Abstract: 本发明公开了一种考虑拷贝数变异因素的基因组结构变异分型方法,输入序列比对文件和突变识别文件并统计记录各变异位点的特征值;根据输入文件提取特征值,从突变识别文件VCF中提取基因型作为分类监督,通过Python提取VCF文件中第八列type后的基因型信息,一行对应一个变异依次将特征值以空格分隔,基因型以分隔符存储到txt文件中;确定核函数和核函数参数;将数据分为M-RVM模型的训练集和测试集;采用快速二类极大似然估计求解先验参数,采用最大期望估计算法求解核参数;输出分型结果、估计概率和总体精度。本方法全面理清了考虑拷贝数变异因素的基因组结构变异分型问题,利用多分类相关向量机设计了一种高准确率、高效率的解法。

    针对第二代肿瘤基因组高通量测序数据的流程校正方法

    公开(公告)号:CN106778072B

    公开(公告)日:2019-05-21

    申请号:CN201611264937.5

    申请日:2016-12-30

    Abstract: 本发明公开了一种针对第二代肿瘤基因组高通量测序数据的流程校正方法。该方法采用一系列32位无符号数为标识量,分别记录对应的每条血系变异或体细胞变异数据,生成体现纯度和不同亚克隆配比的读段数据,根据父子亚克隆继承、兄弟亚克隆互斥的变异关系,得到子代亚克隆及其兄弟亚克隆的体细胞变异的校准数据,用于对所述二代肿瘤基因组高通量测序数据的处理流程进行校正。

    一种城市环境效率的测量方法及测量系统

    公开(公告)号:CN108647187A

    公开(公告)日:2018-10-12

    申请号:CN201810419129.4

    申请日:2018-05-04

    Abstract: 本发明涉及城市环境效率领域,公开了一种城市环境效率的测量方法及测量系统。所述测量方法包括:确定城市的总产出、个体特征以及技术创新因子;基于所述个体特征以及所述技术创新因子来计算多产出随机生产前沿;以及基于所述总产出和所述多产出随机生产前沿来确定所述城市环境效率。该测量方法能够准确地测量城市环境效率。

Patent Agency Ranking