生物序列标识符的压缩方法及装置、解压方法及装置

    公开(公告)号:CN115497569A

    公开(公告)日:2022-12-20

    申请号:CN202110669731.5

    申请日:2021-06-17

    IPC分类号: G16B50/50

    摘要: 本发明公开了生物序列标识符的压缩方法及装置、解压方法及装置。对于基因测序文件中的每个标识符,将所述标识符拆分成若干子标识符;定义若干窗口的编码规则,所述编码规则与所述子标识符的文本格式相匹配;将指代含义相同的子标识符划分至相同的窗口;对于各个窗口,根据对应的编码规则对所述窗口中的所有子标识符进行编码,并将各个窗口的编码结果汇总成所述标识符的压缩结果。这些方法在尽量兼容特殊数据的前提下,尽量提升了对所有标识符数据的压缩率,同时保证了编解码性能。

    一种FASTQ文件的并行压缩和解压方法及系统

    公开(公告)号:CN111628779A

    公开(公告)日:2020-09-04

    申请号:CN202010472611.1

    申请日:2020-05-29

    IPC分类号: H03M7/30 G06F16/174

    摘要: 本发明涉及一种FASTQ文件的并行压缩和解压方法及系统,包括以下步骤:S1将FASTQ文件切分成若干数据块;S2移动每个所述数据块首尾的文件偏移量,使每个所述数据块间首尾相衔;S3并行压缩各个数据块,过程中,每个数据块由一个工作线程独立压缩,且数据块的索引信息被记录;S4并行解压各个数据块,过程中,每个数据块由一个工作线程独立解压,该过程基于对应数据块的索引信息。其通过在压缩过程中使用的短读序列头部查找方法,以及解压过程中利用索引信息,实现的高效并行压缩和解压,解决了数据分块方案下的线程阻塞问题。

    用于碱基序列的碱基编码和解码方法以及设备

    公开(公告)号:CN118280457A

    公开(公告)日:2024-07-02

    申请号:CN202211722048.4

    申请日:2022-12-30

    IPC分类号: G16B50/50 G16B20/30

    摘要: 提出了一种用于碱基序列的碱基编码方法,包括:初始化4k个计数器,k为预设值;遍历各个碱基序列,对于每个碱基,得知碱基的前k个碱基,访问与该长度为k的碱基序列相对应的计数器,以该计数器为概率分布对该碱基进行熵编码,然后根据权重策略,使用不同的权重值对该计数器进行更新;在所有碱基被编码后,记录权重策略,以供解码使用。还提出了一种用于碱基序列的碱基解码方法。

    一种FASTQ文件压缩中的碱基序列编码方法和系统

    公开(公告)号:CN112102883A

    公开(公告)日:2020-12-18

    申请号:CN202011016128.9

    申请日:2020-09-24

    IPC分类号: G16B30/10

    摘要: 本发明属于生物信息数据处理技术领域,涉及一种FASTQ文件压缩中的碱基序列编码方法和系统,S1对待编码碱基序列的简并碱基信息进行编码;S2判断待编码碱基序列是否存在接头序列,若存在所述接头序列则对所述接头序列进行编码;S3将待编码碱基序列与参考序列进行比对,若所述待编码碱基序列与参考序列比对成功,则将所述待编码碱基序列的比对信息进行编码;S4若所述待编码碱基序列与参考序列比对失败,则对所述待编码碱基序列进行熵编码。其通过尽量降低接头序列、简并碱基、低质量碱基给序列比对和熵编码带来的负面影响,从而提高了比对率和熵编码的压缩率。

    一种FASTQ文件的并行压缩和解压方法及系统

    公开(公告)号:CN111628779B

    公开(公告)日:2023-10-20

    申请号:CN202010472611.1

    申请日:2020-05-29

    IPC分类号: H03M7/30 G06F16/174

    摘要: 本发明涉及一种FASTQ文件的并行压缩和解压方法及系统,包括以下步骤:S1将FASTQ文件切分成若干数据块;S2移动每个所述数据块首尾的文件偏移量,使每个所述数据块间首尾相衔;S3并行压缩各个数据块,过程中,每个数据块由一个工作线程独立压缩,且数据块的索引信息被记录;S4并行解压各个数据块,过程中,每个数据块由一个工作线程独立解压,该过程基于对应数据块的索引信息。其通过在压缩过程中使用的短读序列头部查找方法,以及解压过程中利用索引信息,实现的高效并行压缩和解压,解决了数据分块方案下的线程阻塞问题。

专利代理机构排行榜