一种FASTQ文件的并行压缩和解压方法及系统

    公开(公告)号:CN111628779B

    公开(公告)日:2023-10-20

    申请号:CN202010472611.1

    申请日:2020-05-29

    IPC分类号: H03M7/30 G06F16/174

    摘要: 本发明涉及一种FASTQ文件的并行压缩和解压方法及系统,包括以下步骤:S1将FASTQ文件切分成若干数据块;S2移动每个所述数据块首尾的文件偏移量,使每个所述数据块间首尾相衔;S3并行压缩各个数据块,过程中,每个数据块由一个工作线程独立压缩,且数据块的索引信息被记录;S4并行解压各个数据块,过程中,每个数据块由一个工作线程独立解压,该过程基于对应数据块的索引信息。其通过在压缩过程中使用的短读序列头部查找方法,以及解压过程中利用索引信息,实现的高效并行压缩和解压,解决了数据分块方案下的线程阻塞问题。

    基因表达矩阵的计算方法及装置、电子设备和存储介质

    公开(公告)号:CN119132425A

    公开(公告)日:2024-12-13

    申请号:CN202310694450.4

    申请日:2023-06-12

    IPC分类号: G16B50/10 G16B30/10 G16B25/00

    摘要: 本公开提供了一种基因表达矩阵的计算方法及装置、电子设备和存储介质,根据基因注释文件,对比对文件中的短读数据进行注释,确定第一短读数据所属的第一基因;将第一基因中的第一短读数据进行分子标识矫正,获得第一短读数据的分子标识矫正结果;继续对第二短读数据进行注释获得第二注释信息,确定第二短读数据所属的第二基因,并对第二基因中的第二短读数据进行分子标识矫正,获得第二短读数据的分子标识矫正结果;在比对文件中所有的短读数据均执行完分子标识矫正的情况下,输出对应的基因表达矩阵。本公开实施例通过对不同染色体进行串行处理,对每个染色体中的基因的短读数据采用并行处理的方式,可以充分的利用计算资源,提高计算效率。

    生物序列标识符的压缩方法及装置、解压方法及装置

    公开(公告)号:CN115497569A

    公开(公告)日:2022-12-20

    申请号:CN202110669731.5

    申请日:2021-06-17

    IPC分类号: G16B50/50

    摘要: 本发明公开了生物序列标识符的压缩方法及装置、解压方法及装置。对于基因测序文件中的每个标识符,将所述标识符拆分成若干子标识符;定义若干窗口的编码规则,所述编码规则与所述子标识符的文本格式相匹配;将指代含义相同的子标识符划分至相同的窗口;对于各个窗口,根据对应的编码规则对所述窗口中的所有子标识符进行编码,并将各个窗口的编码结果汇总成所述标识符的压缩结果。这些方法在尽量兼容特殊数据的前提下,尽量提升了对所有标识符数据的压缩率,同时保证了编解码性能。

    一种FASTQ文件的并行压缩和解压方法及系统

    公开(公告)号:CN111628779A

    公开(公告)日:2020-09-04

    申请号:CN202010472611.1

    申请日:2020-05-29

    IPC分类号: H03M7/30 G06F16/174

    摘要: 本发明涉及一种FASTQ文件的并行压缩和解压方法及系统,包括以下步骤:S1将FASTQ文件切分成若干数据块;S2移动每个所述数据块首尾的文件偏移量,使每个所述数据块间首尾相衔;S3并行压缩各个数据块,过程中,每个数据块由一个工作线程独立压缩,且数据块的索引信息被记录;S4并行解压各个数据块,过程中,每个数据块由一个工作线程独立解压,该过程基于对应数据块的索引信息。其通过在压缩过程中使用的短读序列头部查找方法,以及解压过程中利用索引信息,实现的高效并行压缩和解压,解决了数据分块方案下的线程阻塞问题。

    用于碱基序列的碱基编码和解码方法以及设备

    公开(公告)号:CN118280457A

    公开(公告)日:2024-07-02

    申请号:CN202211722048.4

    申请日:2022-12-30

    IPC分类号: G16B50/50 G16B20/30

    摘要: 提出了一种用于碱基序列的碱基编码方法,包括:初始化4k个计数器,k为预设值;遍历各个碱基序列,对于每个碱基,得知碱基的前k个碱基,访问与该长度为k的碱基序列相对应的计数器,以该计数器为概率分布对该碱基进行熵编码,然后根据权重策略,使用不同的权重值对该计数器进行更新;在所有碱基被编码后,记录权重策略,以供解码使用。还提出了一种用于碱基序列的碱基解码方法。

专利代理机构排行榜