基于双端读数insert size分布的contig错误连接区域识别方法
摘要:
本发明公开了一种基于双端读数insert size分布的contig错误连接区域识别方法,包括以下步骤:1)输入contigs集合和双端读数文库,使用序列比对工具将双端读数文库的双端读数比对到contigs集合上,得到比对结果;2)根据比对结果,得到双端支持稀疏的区域;将这些区域作为错误连接的候选区域;3)并通过双端读数的分布检验对候选区域进行延伸,最终通过区域长度判定候选区域是否是错误连接位置;4)确定错误连接区域的边界。本发明方法具有较高的准确度,通过错误位点切割能够明显减少contig中的拼接错误,有效地提高了contig的质量。
0/0