-
公开(公告)号:CN119028443A
公开(公告)日:2024-11-26
申请号:CN202310596719.5
申请日:2023-05-24
申请人: 深圳华大生命科学研究院 , 湖北华大基因研究院
IPC分类号: G16B35/10 , G16B40/00 , G16B50/30 , G06F16/2458 , G06F16/22
摘要: 本公开提出一种数据存储方法、数据读取方法及装置,涉及计算机技术领域。该方法包括:接收生物数据文件,提取生物数据文件中的基因数据;接收掩膜图像文件,获取掩膜图像文件中的细胞数据;将细胞数据以及基因数据进行数据统计,得到统计数据;将细胞数据、基因数据以及统计数据进行分类存储。本公开实现依据新的存储细胞表达量信息数据的格式进行分类存储,将无序数据转换成有序数据,减少了数据的冗余,降低了存储成本。
-
公开(公告)号:CN119028444A
公开(公告)日:2024-11-26
申请号:CN202310604448.3
申请日:2023-05-24
申请人: 深圳华大生命科学研究院 , 湖北华大基因研究院
IPC分类号: G16B35/10 , G16B40/00 , G16B50/30 , G06F16/2458 , G06F16/22
摘要: 本公开提出一种数据存储方法、数据读取方法及装置,涉及计算机技术领域。该方法包括:获取生物数据文件,并提取生物数据文件的原始生物数据;对原始生物数据进行数据归并;将归并后的生物数据按预设格式进行分类存储。本公开实现按预设格式分类存储,将无序数据转换成有序数据,减少了数据的冗余,降低了存储成本。
-
-
公开(公告)号:CN115497569A
公开(公告)日:2022-12-20
申请号:CN202110669731.5
申请日:2021-06-17
申请人: 深圳华大生命科学研究院
IPC分类号: G16B50/50
摘要: 本发明公开了生物序列标识符的压缩方法及装置、解压方法及装置。对于基因测序文件中的每个标识符,将所述标识符拆分成若干子标识符;定义若干窗口的编码规则,所述编码规则与所述子标识符的文本格式相匹配;将指代含义相同的子标识符划分至相同的窗口;对于各个窗口,根据对应的编码规则对所述窗口中的所有子标识符进行编码,并将各个窗口的编码结果汇总成所述标识符的压缩结果。这些方法在尽量兼容特殊数据的前提下,尽量提升了对所有标识符数据的压缩率,同时保证了编解码性能。
-
公开(公告)号:CN111628779A
公开(公告)日:2020-09-04
申请号:CN202010472611.1
申请日:2020-05-29
申请人: 深圳华大生命科学研究院
IPC分类号: H03M7/30 , G06F16/174
摘要: 本发明涉及一种FASTQ文件的并行压缩和解压方法及系统,包括以下步骤:S1将FASTQ文件切分成若干数据块;S2移动每个所述数据块首尾的文件偏移量,使每个所述数据块间首尾相衔;S3并行压缩各个数据块,过程中,每个数据块由一个工作线程独立压缩,且数据块的索引信息被记录;S4并行解压各个数据块,过程中,每个数据块由一个工作线程独立解压,该过程基于对应数据块的索引信息。其通过在压缩过程中使用的短读序列头部查找方法,以及解压过程中利用索引信息,实现的高效并行压缩和解压,解决了数据分块方案下的线程阻塞问题。
-
公开(公告)号:CN118280457A
公开(公告)日:2024-07-02
申请号:CN202211722048.4
申请日:2022-12-30
申请人: 深圳华大生命科学研究院
摘要: 提出了一种用于碱基序列的碱基编码方法,包括:初始化4k个计数器,k为预设值;遍历各个碱基序列,对于每个碱基,得知碱基的前k个碱基,访问与该长度为k的碱基序列相对应的计数器,以该计数器为概率分布对该碱基进行熵编码,然后根据权重策略,使用不同的权重值对该计数器进行更新;在所有碱基被编码后,记录权重策略,以供解码使用。还提出了一种用于碱基序列的碱基解码方法。
-
公开(公告)号:CN112102883A
公开(公告)日:2020-12-18
申请号:CN202011016128.9
申请日:2020-09-24
申请人: 深圳华大生命科学研究院
IPC分类号: G16B30/10
摘要: 本发明属于生物信息数据处理技术领域,涉及一种FASTQ文件压缩中的碱基序列编码方法和系统,S1对待编码碱基序列的简并碱基信息进行编码;S2判断待编码碱基序列是否存在接头序列,若存在所述接头序列则对所述接头序列进行编码;S3将待编码碱基序列与参考序列进行比对,若所述待编码碱基序列与参考序列比对成功,则将所述待编码碱基序列的比对信息进行编码;S4若所述待编码碱基序列与参考序列比对失败,则对所述待编码碱基序列进行熵编码。其通过尽量降低接头序列、简并碱基、低质量碱基给序列比对和熵编码带来的负面影响,从而提高了比对率和熵编码的压缩率。
-
公开(公告)号:CN111628779B
公开(公告)日:2023-10-20
申请号:CN202010472611.1
申请日:2020-05-29
申请人: 深圳华大生命科学研究院
IPC分类号: H03M7/30 , G06F16/174
摘要: 本发明涉及一种FASTQ文件的并行压缩和解压方法及系统,包括以下步骤:S1将FASTQ文件切分成若干数据块;S2移动每个所述数据块首尾的文件偏移量,使每个所述数据块间首尾相衔;S3并行压缩各个数据块,过程中,每个数据块由一个工作线程独立压缩,且数据块的索引信息被记录;S4并行解压各个数据块,过程中,每个数据块由一个工作线程独立解压,该过程基于对应数据块的索引信息。其通过在压缩过程中使用的短读序列头部查找方法,以及解压过程中利用索引信息,实现的高效并行压缩和解压,解决了数据分块方案下的线程阻塞问题。
-
-
-
-
-
-
-