基于选择性扫描的文件系统的元数据抽取方法及装置

    公开(公告)号:CN102110156B

    公开(公告)日:2015-02-18

    申请号:CN201110042837.9

    申请日:2011-02-22

    Applicant: 清华大学

    Abstract: 本发明提出一种基于选择性扫描的基于选择性扫描的文件系统的元数据抽取方法及装置,该方法包括以下步骤:A.定义目录分组模式;B.根据扫描策略加载目录组;C.对目录排序并扫描;D.判断是否扫描完成,如果否则选择要扫描的目录并初始化其子对象元数据列表;E.判断是否扫描完成,如果否则读取下一个子对象元数据并加入子对象元数据列表中,更新时间局部性目录组;F.否则更新时间戳方差目录组;和G.判断当前扫描是否为基础扫描,如果是则更新当前目录的子目录数组并转至步骤D,否则直接转至步骤D。应用本发明实施例的元数据抽取方法,极大的提高了抽取效率。另外,本发明设计简单,易于实现。

    用于机器学习的参数寻优及特征调优的方法及系统

    公开(公告)号:CN104200087A

    公开(公告)日:2014-12-10

    申请号:CN201410422475.X

    申请日:2014-08-25

    Applicant: 清华大学

    CPC classification number: G06N99/005

    Abstract: 本发明提出一种用于机器学习的参数寻优及特征调优的方法,包括以下步骤:随机生成多个参数集合;分别对多个参数集合进行基于EnKF的迭代优化;分别对优化后的多个参数集合进行性能评估,并根据评估结果得到集合池和补充参数集合,其中,集合池中的参数集合的性能高于补充参数集合中的参数集合的性能;对集合池中的参数集合和补充参数集合中的参数集合再次进行基于EnKF的迭代优化和性能评估,以得到最优参数集合。本发明的方法能够提升处理参数寻优的计算结果和计算效率,并且通用性强。本发明还提供了一种用于机器学习的参数寻优及特征调优的系统。

    基于键值key-value存储的分布式文件系统元数据管理方法

    公开(公告)号:CN102110146B

    公开(公告)日:2012-11-14

    申请号:CN201110039269.7

    申请日:2011-02-16

    Applicant: 清华大学

    Abstract: 本发明公开了一种基于键值key-value存储的分布式文件系统元数据管理方法,主要涉及文件系统领域。该方法包括以下步骤:服务器存储文件和目录的元数据,并以位图的方式存储目录的子对象;对子对象的元数据进行修改操作;后台进程定期扫描所述操作日志,对超时操作进行垃圾回收。本发明的基于键值key-value存储的分布式文件系统元数据存储管理方法,具有比传统分布式文件系统更好的扩展性。同时,其采用日志记录和垃圾回收的管理模式,在对元数据修改过程中,保持了元数据的一致性。

    一种海量对象的存储系统及其运行方法

    公开(公告)号:CN102073742B

    公开(公告)日:2012-11-14

    申请号:CN201110034095.5

    申请日:2011-01-31

    Applicant: 清华大学

    Abstract: 本发明提供了一种海量对象的存储系统及其运行方法,所述系统包括:接口层单元,包括接口模块,用于构造请求信息;AXIS2请求解析引擎,用于对请求信息进行解析并将请求信息转发给服务层单元;服务层单元包括:对象服务模块,用于对对象进行管理、控制操作;容器服务模块,用于对容器进行管理、控制操作;系统管理模块,用于对存储系统进行系统管理;安全管理模块,用于对存储系统进行安全性管理;存储接口适配层模块,用于通过采用统一的接口函数访问存储层单元的存储资源;存储层单元,用于在存储资源上存储数据。本发明能够对海量的对象和容器进行简洁高效的管理,并保证系统的简洁性、灵活性、低成本的可扩展性、安全性和向后兼容性。

    地球系统模式的通用模块化并行耦合系统

    公开(公告)号:CN102592251A

    公开(公告)日:2012-07-18

    申请号:CN201110021098.5

    申请日:2011-01-18

    Applicant: 清华大学

    Abstract: 本发明涉及地球系统模式的通用模块化并行耦合系统,属于地球系统科学技术领域。该系统包括:配置信息子系统、耦合生成子系统、地球系统模式运行时子系统和用户接口子系统;用户接口子系统与地球系统模式组件相连,并通过耦合生成子系统与地球系统模式组件配置信息模块相连,地球系统模式用例配置信息模块与地球系统模式组件配置信息模块相连,还通过耦合生成子系统与用户接口子系统相连;地球系统模式用例配置信息模块通过耦合生成子系统与地球系统模式运行时配置信息模块相连,地球系统模式运行时配置信息模块与地球系统模式运行时子系统相连。该系统具有模块化的结构、用户界面友好、通用性好、可维护性好,耦合效率高等诸多特点。

    面向海量数据的分布式处理方法

    公开(公告)号:CN102521367A

    公开(公告)日:2012-06-27

    申请号:CN201110424530.5

    申请日:2011-12-16

    Applicant: 清华大学

    Abstract: 本发明涉及海量数据的分布式处理技术领域,公开了一种面向海量数据的分布式处理方法,包括以下步骤:S1:根据SQL命令以及数组文件内的变量信息计算输出变量和条件变量集合中的主变量,如果主变量存在,执行S2;S2:判断是否进行条件变量的选择优化;S3:判断数组是否合并存储;S4:SQL引擎根据SQL命令以及表中定义的各列的数据类型生成MapReduce任务接收到的数据元组,并生成结果数据元组;S5:对于生成的结果数据元组,判断是否需要将其以数组文件存储。本发明设计了一种基于MapReduce的、对于以数组形式存储的海量数据的分布式处理方法,使得用户可以使用SQL命令对以数组形式存储的海量数据进行分布式处理,该方法具有使用简单、运行高效,可容错的特点。

    数据网格系统中数据副本的混合定位方法

    公开(公告)号:CN1815963A

    公开(公告)日:2006-08-09

    申请号:CN200610011469.0

    申请日:2006-03-10

    Applicant: 清华大学

    Abstract: 本发明属于网格数据管理与共享技术领域,其特征在于:系统采用了一种自相似的分层同构的体系结构,系统中的结点的粒度可以任意调整。因此,增加了系统的灵活性以及可扩展性。同时,系统中引入了超级结点的概念,这些超级结点之间采用全相连的体系结构,减少了结点之间由于维护庞大的路由表带来的开销,以及由于结点频繁加入、退出时对系统造成的影响。系统中的数据拥有两种元数据:本地元数据与全局元数据。对于用户而言,无需改变其使用习惯;采用全局统一的元数据,可以使得元数据的存储、传输变得简单。另外,元数据的搜索采用逐步解析的方法,使得副本定位的查询消息尽量限制在局域范围内。

    基于网格环境的多计算引擎协同方法

    公开(公告)号:CN1258704C

    公开(公告)日:2006-06-07

    申请号:CN200310103047.2

    申请日:2003-10-31

    Applicant: 清华大学

    Abstract: 基于网格环境的多计算引擎协同使用方法其特征在于:在OGSA的GT3版本支持下,远程计算节点和用户端计算节点借助于安装了jdk1.4和Java1.4运行时环境的操作系统的支持,应用GridFTP协议,使得用户计算节点可以通过向注册节点查询已经注册的远程计算节点列表,并运用客户端的协同计算软件包来协同使用分布在网格上的计算资源。它的基本方法就是通过统一的计算接口把计算资源用GridService服务包装起来,客户端通过GridService服务提供的接口把子任务分配到远程计算节点上并调度和协同执行。它可把高性能计算软硬件资源有效地整合起来,获取高效的计算能力和存储能力。

    基于操作栈记录的恢复的Java线程迁移的方法

    公开(公告)号:CN1438576A

    公开(公告)日:2003-08-27

    申请号:CN03121035.X

    申请日:2003-03-21

    Applicant: 清华大学

    Abstract: 基于操作栈记录与恢复的Java线程迁移的方法属于线程迁移技术领域,其特征在于:它通过动态的解释载入的字节码,使得在载入目标字节码的同时,动态地修改插入的目标字节码。对于赋值操作,它把相应的代码段隔离,以此代替对操作栈中的内容进行隔离;对于保存操作栈内容的操作,针对每一次出栈入栈的操作,都用插入相应的字节码的方法来记录相应的操作,它操作安全效率也高。

Patent Agency Ranking