紧凑的下一代测序数据集及使用其的高效测序处理
摘要:
在包括通过处理组织样本采集的碱基序列的基因测序读数上操作的方法中,生成基因测序读数的紧凑文本表示。所述紧凑文本表示包括:(1)文本串,其表示碱基序列,以及(2)碱基质量文本域,其识别碱基序列的最长子序列,针对所述最长子序列,子序列的碱基的碱基质量分数满足碱基质量分数阈值;以及将基因测序读数的紧凑文本表示存储在原始读数存储器中。为了提供灵活性,所述碱基质量文本域可以识别针对两个或更多不同碱基质量分数阈值的每个的最长子序列。在读数比对期间,针对基因测序读数的偏移边界能够使用碱基质量文本域的内容高效地进行选择。
0/0