-
公开(公告)号:CN104951427B
公开(公告)日:2019-01-11
申请号:CN201510372041.8
申请日:2015-06-30
Applicant: 深圳清华大学研究院
IPC: G06F17/16
Abstract: 本发明提供了一种以矩阵为中心的分布式计算框架,执行如下步骤:计算框架读取数据,并根据数据生成稀疏矩阵;对稀疏矩阵进行预处理,并将稀疏矩阵进行逻辑分块以得到多个矩阵块;通过计算框架对多个矩阵块进行划分;根据划分后的矩阵块进行矩阵运算以提升数据的处理效率。该计算框架,解决分布式矩阵划分中对系统性能的均衡问题。该计算框架在划分中针对数据的矩阵特征进行优化,在数据倾斜、通信量和单机计算效率等性能上达到平衡。
-
公开(公告)号:CN103631730B
公开(公告)日:2016-04-27
申请号:CN201310531246.7
申请日:2013-11-01
Applicant: 深圳清华大学研究院
IPC: G06F12/121
Abstract: 本发明提供一种内存计算的缓存优化方法,该方法包括:在Spark源程序中插入监听代码,对应用程序进行动态语义分析以构造DAG图;计算DAG中各顶点出度并筛选出出度大于1的顶点对应的RDD,筛选出的RDD为需要缓存至内存的RDD;根据贪心算法调整Action的执行顺序以优化RDD数据计算的访问顺序;计算RDD的权重,根据内存替换算法决定内存中被替换出的RDD;及根据多级缓存算法决定如何处理被替换出的RDD。应用本发明所述内存计算的缓存优化方法,无需程序员在编程时考量内存使用以及显示指定加载内存的RDD,降低程序员的编程负担,同时提高了内存的利用率进而提升大数据处理的速度。
-
公开(公告)号:CN104951427A
公开(公告)日:2015-09-30
申请号:CN201510372041.8
申请日:2015-06-30
Applicant: 深圳清华大学研究院
IPC: G06F17/16
Abstract: 本发明提供了一种以矩阵为中心的分布式计算框架,执行如下步骤:计算框架读取数据,并根据数据生成稀疏矩阵;对稀疏矩阵进行预处理,并将稀疏矩阵进行逻辑分块以得到多个矩阵块;通过计算框架对多个矩阵块进行划分;根据划分后的矩阵块进行矩阵运算以提升数据的处理效率。该计算框架,解决分布式矩阵划分中对系统性能的均衡问题。该计算框架在划分中针对数据的矩阵特征进行优化,在数据倾斜、通信量和单机计算效率等性能上达到平衡。
-
公开(公告)号:CN104954483A
公开(公告)日:2015-09-30
申请号:CN201510372967.7
申请日:2015-06-30
Applicant: 深圳清华大学研究院
IPC: H04L29/08
Abstract: 本发明提供了一种云计算平台中使用竞价节点部署分布式服务的方法,包括:从云计算平台中获取独立区域中竞价节点的价格历史数据,并根据价格历史数据建立独立区域中竞价节点失效概率预测模型;在预定竞价周期内,根据竞价节点失效概率预测模型估计独立区域中竞价节点的失效概率;根据独立区域中竞价节点的失效概率,利用在线竞价算法得到独立区域中竞价节点的最优的竞价策略。该方法采用标值点过程建立竞价节点失效概率模型,准确估计了竞价节点失效概率。通过在线的竞价算法给出指定竞价周期的竞价策略。在保证分布式服务可用性的前提下,极大的减少了费用开销。
-
公开(公告)号:CN103677955A
公开(公告)日:2014-03-26
申请号:CN201310647925.0
申请日:2013-12-04
Applicant: 深圳清华大学研究院
IPC: G06F9/455
Abstract: 本发明公开了一种基于Virtio驱动进行虚拟机内存在线迁移的方法,主要涉及虚拟机虚拟化领域。该方法包括:修改虚拟机管理器后台驱动以指导客户机的内存迁移;编写客户机Virtio驱动以分配保留页面;参考内存位图进行非保留页面的循环迁移。本发明将半虚拟化技术应用于虚拟机的迁移当中,通过虚拟机内存的实际使用情况动态地进行内存迁移,相对于传统虚拟机迁移方法,能够大大降低虚拟机的内存迁移时间和开销,提高迁移效率。
-
公开(公告)号:CN103677955B
公开(公告)日:2017-05-03
申请号:CN201310647925.0
申请日:2013-12-04
Applicant: 深圳清华大学研究院
IPC: G06F9/455
Abstract: 本发明公开了一种基于Virtio驱动进行虚拟机内存在线迁移的方法,主要涉及虚拟机虚拟化领域。该方法包括:修改虚拟机管理器后台驱动以指导客户机的内存迁移;编写客户机Virtio驱动以分配保留页面;参考内存位图进行非保留页面的循环迁移。本发明将半虚拟化技术应用于虚拟机的迁移当中,通过虚拟机内存的实际使用情况动态地进行内存迁移,相对于传统虚拟机迁移方法,能够大大降低虚拟机的内存迁移时间和开销,提高迁移效率。
-
公开(公告)号:CN105045656A
公开(公告)日:2015-11-11
申请号:CN201510371873.8
申请日:2015-06-30
Applicant: 深圳清华大学研究院
Abstract: 本发明提供了一种基于虚拟容器的大数据存储与管理系统及方法,该系统包括:元数据服务器,用于维护租户信息和用户信息,并在用户访问元数据和容器时进行权限认证;调度器,包括两层调度,上层调度为容器级别的调度,下层调度为任务级别的调度,上层调度用于接收用户的请求,并为用户分配和配置对应的容器,下层调度由每个大数据计算框架的主节点完成,调度器实现容器的调度;从服务器,控制所述物理机上的容器的启停,并监控物理机的资源,将资源和任务运行情况反馈给调度器。该系统采用虚拟容器技术进行资源与环境的隔离,采用双层调度的架构降低了上层调度器负载和分布式应用与调度器的耦合度,并且对实时调度存储系统提供了支持。
-
公开(公告)号:CN103561057A
公开(公告)日:2014-02-05
申请号:CN201310480833.8
申请日:2013-10-15
Applicant: 深圳清华大学研究院
IPC: H04L29/08
Abstract: 本发明公开了一种基于分布式哈希表和纠删码的数据存储方法,主要涉及分布式存储领域。该方法包括以下步骤:存储系统对数据块的管理整体采用去中心化的分布式哈希表的结构;为保证可靠性,对数据块采用纠删码编码进行冗余存储;后台进程定期扫描数据来维护数据的一致性和冗余。本发明的基于分布式哈希表和纠删码的数据存储方法,具有去中心化的结构,比传统分布式存储系统具有更好的扩展性。同时,在保证数据可靠性的基础上,通过纠删码减少数据冗余带来的存储开销。
-
公开(公告)号:CN105045656B
公开(公告)日:2018-11-30
申请号:CN201510371873.8
申请日:2015-06-30
Applicant: 深圳清华大学研究院
Abstract: 本发明提供了一种基于虚拟容器的大数据存储与管理系统及方法,该系统包括:元数据服务器,用于维护租户信息和用户信息,并在用户访问元数据和容器时进行权限认证;调度器,包括两层调度,上层调度为容器级别的调度,下层调度为任务级别的调度,上层调度用于接收用户的请求,并为用户分配和配置对应的容器,下层调度由每个大数据计算框架的主节点完成,调度器实现容器的调度;从服务器,控制所述物理机上的容器的启停,并监控物理机的资源,将资源和任务运行情况反馈给调度器。该系统采用虚拟容器技术进行资源与环境的隔离,采用双层调度的架构降低了上层调度器负载和分布式应用与调度器的耦合度,并且对实时调度存储系统提供了支持。
-
公开(公告)号:CN103761162B
公开(公告)日:2016-12-07
申请号:CN201410013486.2
申请日:2014-01-11
Applicant: 深圳清华大学研究院
CPC classification number: G06F11/1458 , G06F11/1451 , G06F11/1456 , G06F11/1464 , G06F17/30174 , G06F17/30194 , G06F2201/82
Abstract: 本发明提供一种分布式文件系统的数据备份方法,该方法包括:同步控制节点创建线程池,根据拷贝列表为各线程分配源文件,并行进行各源文件和对应目标文件的元数据同步;同步控制节点的各线程通过判定源和目标文件中的各文件块的内容一致性,分析各自分配的源文件和对应目标文件的差异;源数据节点通过判定源和目标文件块中各chunk的内容一致性,分析源和目标文件块的差异;目标数据节点根据源和目标文件块的差异分析结果,备份源文件块的数据至对应目标文件块。该方法有效利用目标文件系统的目标文件的已有数据,减少跨集群的数据节点间的数据传输,且一个文件的备份过程中以文件块为单位并行备份,减少了数据备份的执行时间。
-
-
-
-
-
-
-
-
-