基于最小哈希的大规模蛋白质序列聚类方法、系统及产品

    公开(公告)号:CN119851771A

    公开(公告)日:2025-04-18

    申请号:CN202510314828.2

    申请日:2025-03-18

    Applicant: 山东大学

    Abstract: 本发明属于蛋白质序列聚类技术领域,提供了基于最小哈希的大规模蛋白质序列聚类方法、系统及产品,其技术方案为对于每条序列,构建一个唯一标识的ID,构建该序列的k‑mer集合;使用同一个哈希函数逐个将k‑mer集中的k‑mer映射成哈希值,选择最小的M个哈希值作为该序列的minhash集合;结合序列的minhash集合和设定的分组规则,对蛋白质序列进行分组;其中,设定的分组规则为如果有两个序列的minhash集合有碰撞,则将其划分为同一个分组;针对每组序列单独聚类,将聚类后的结果整合得到最终的聚类结果。大大减少了聚类的时间开销。

    一种基于多线程计算的生物序列比对方法及系统

    公开(公告)号:CN117373538A

    公开(公告)日:2024-01-09

    申请号:CN202311676549.8

    申请日:2023-12-08

    Applicant: 山东大学

    Abstract: 本发明属于生物序列比对技术领域,提供了一种基于多线程计算的生物序列比对方法及系统,其技术方案为:基于原有OrderMinHash算法,通过优化编译参数、调用RabbitFx库快速解析FASTA文件、交换算法循环顺序优化访存、转换数据类型使用按位函数、优先队列等优化计算、使用AVX512指令集充分利用SIMD向量处理单元提升计算效率等优化单线程模型,并设计多线程计算模型,允许控制线程数,且通过负载均衡等方式保证加速比与线程数基本成正比,完成算法在通用多核计算平台上的优化。解决了传统方法序列对比效率低的问题。

    面向多核处理器的基因变异检测方法及系统

    公开(公告)号:CN112397142B

    公开(公告)日:2023-02-03

    申请号:CN202011090874.2

    申请日:2020-10-13

    Applicant: 山东大学

    Abstract: 本发明公开了面向多核处理器的基因变异检测方法,包括:对输入数据进行预处理;从预处理后得到的测序序列read提取简要比对信息表达式CIGAR信息;输入数据,是指:将待查询序列与参考序列进行比对得到的文件;对读取的测序序列read的简要比对信息表达式CIGAR信息进行修改;对修改后的测序序列read的简要比对信息表达式CIGAR信息进行处理,处理过程中从内存池中进行候选变异数据的调取,得到候选变异集合;对候选变异集合中变异的基因进行局部重比对,以降低假阳性变异的检测;对局部重比对后的变异的基因进行格式化处理,将格式化处理后的变异基因输出到输出文件中,并且将内存池中数据进行重置以便进行反复的使用。

    一种生物基因序列的概要数据生成方法及系统

    公开(公告)号:CN113496762A

    公开(公告)日:2021-10-12

    申请号:CN202110551818.2

    申请日:2021-05-20

    Applicant: 山东大学

    Abstract: 本公开提供了一种生物基因序列的概要数据生成方法及系统,获取待处理的基因序列;将待处理的基因序列利用滑动窗口进行K‑mer分解,将M个K‑mer及其对应的M个反向互补链的K‑mer进行对比,对每对正向、反向K‑mer,选取字符值较小的K‑mer,最终得到M个K‑mer,然后进行向量化转置操作;将转置操作得到的向量输入到基于单指令多数据流SIMD改进的哈希函数中,得到各个向量对应的哈希值;继续滑动窗口获取新的子序列K‑mer,重复上述操作,直到待处理基因序列的所有K‑mer都计算出对应的哈希值,根据所有的哈希值构建待处理基因序列的哈希值列表;根据哈希值列表,生成待处理的基因序列的概要数据;本公开采用向量化的实现方式,计算速度更快,能够实现生物基因序列的更高效处理。

    一种地震模拟数据的大规模并行优化方法及系统

    公开(公告)号:CN117149706A

    公开(公告)日:2023-12-01

    申请号:CN202311401949.8

    申请日:2023-10-27

    Applicant: 山东大学

    Abstract: 本公开提供了一种地震模拟数据的大规模并行优化方法及系统,涉及地震数据高性能计算技术领域,包括获取地震模拟中上一时间段输出的波场快照以及重启restart文件并进行LZ4压缩;判断上一时间段程序是否产生异常退出断点,下一时间段是否从最近断点重启;若是从最近断点重启,则解压上一时间段输出重启restart文件进行地震模拟,通过分组IO优化策略,获取输出的下一时间段的波场快照,并保存重启文件,分别再进行LZ4压缩后写入磁盘;若不是从最近断点重启,则重新进行地震模拟,并通过分组IO优化策略输出波场快照以及重启文件,分别再进行LZ4压缩后写入磁盘。本公开大大提高了大规模地震模拟时的IO效率。

    一种生物测序序列快速修剪方法及系统

    公开(公告)号:CN114420210A

    公开(公告)日:2022-04-29

    申请号:CN202210308606.6

    申请日:2022-03-28

    Applicant: 山东大学

    Abstract: 本发明提供了一种生物测序序列快速修剪方法及系统,其属于生物信息技术领域,所述方案包括:获取待修剪的生物测序序列;对所述生物测序序列进行读操作、修剪操作以及写操作;其中,基于生产者—消费者模型对所述读操作、修剪操作以及写操作进行解耦,实现异步执行;且所述生物测序序列的格式化过程从读操作中转移到修剪操作中。

    基于多核平台的二阶盲源分离并行优化方法及系统

    公开(公告)号:CN110188320A

    公开(公告)日:2019-08-30

    申请号:CN201910329707.X

    申请日:2019-04-23

    Applicant: 山东大学

    Abstract: 本发明公开了一种基于多核平台的二阶盲源分离并行优化方法及系统,包括以下步骤:接收环境变量参数,设置CPU线程亲核性;接收待处理信号,对待处理信号进行多线程并行预处理;合并多个可并行计算区域,进行联合近似对角化;输出分离矩阵和源矩阵。本发明借助多核平台的特性,大大加速了二阶盲源分离的处理速度。

    地震模拟运算负载均衡计算通讯方法、系统、介质及设备

    公开(公告)号:CN118113456A

    公开(公告)日:2024-05-31

    申请号:CN202311437549.2

    申请日:2023-11-01

    Applicant: 山东大学

    Abstract: 本公开提供了地震模拟运算负载均衡计算通讯方法、系统、介质及设备,涉及地震数据计算处理技术领域,包括获取地震库中的原始地震波中的边界数据;将整个域根据进程的数量划分给多个进程,并定义多个进程的虚拟边界区域(halo区域),并将区域划分网格;设计计算通信掩盖方案,将整个边界域的网格划分为三个部分,在每一步中,网格的计算时间被其它部分的虚拟边界区域交互时间所覆盖,每一步都将虚拟边界区域网格和内部网格整体传输到从核中进行计算;本公开的方法大大提升了超大规模地震模拟程序运行效率。

    一种基于生产者-消费者模型的生物序列分析系统及方法

    公开(公告)号:CN116092587A

    公开(公告)日:2023-05-09

    申请号:CN202310375440.4

    申请日:2023-04-11

    Applicant: 山东大学

    Abstract: 本发明涉及生物序列分析技术领域,本发明公开了一种基于生产者‑消费者模型的生物序列分析系统及方法,包括输入模块、处理模块和输出模块;所述输入模块和处理模块之间、以及处理模块和输出模块之间,均设置有生产者‑消费者模型;且输入模块和输出模块均采用单线程处理数据,处理模块采用多线程动态划分处理数据;所述生产者‑消费者模型中的生产者向数据池申请空的块,并读取数据放入块中,产生包含数据的块,将包含数据的块放入数据队列;所述生产者‑消费者模型中的消费者在数据队列中获取包含数据的块供自身使用,使用完毕后释放数据,并放回空的块回数据池中。具有较好的线程扩展性,实现了较好的负载均衡。

Patent Agency Ranking