METHODS AND APPARATUS FOR PARALLEL PROCESSING
    41.
    发明申请
    METHODS AND APPARATUS FOR PARALLEL PROCESSING 审中-公开
    用于平行处理的方法和设备

    公开(公告)号:WO2015050594A2

    公开(公告)日:2015-04-09

    申请号:PCT/US2014/042402

    申请日:2014-06-13

    Abstract: Methods and apparatus for parallel processing are provided. A multicore processor is described. The multicore processor may include a distributed memory unit with memory nodes coupled to the processor's cores. The cores may be configured to execute parallel threads, and at least one of the threads may be data-dependent on at least one of the other threads. The distributed memory unit may be configured to proactively send shared memory data from a thread that produces the shared memory data to one or more of the threads.

    Abstract translation: 提供了用于并行处理的方法和装置。 描述了多核处理器。 多核处理器可以包括具有耦合到处理器的核的存储器节点的分布式存储器单元。 内核可以被配置为执行并行线程,并且至少一个线程可以取决于至少一个其他线程的数据。 分布式存储器单元可以被配置为主动地将共享存储器数据从产生共享存储器数据的线程发送到一个或多个线程。

    LOOP VECTORIZATION METHODS AND APPARATUS
    42.
    发明申请
    LOOP VECTORIZATION METHODS AND APPARATUS 审中-公开
    LOOP VECTORIZATION方法和装置

    公开(公告)号:WO2014051459A1

    公开(公告)日:2014-04-03

    申请号:PCT/RU2012/000794

    申请日:2012-09-28

    Abstract: Loop vectorization methods and apparatus are disclosed. An example method includes generating a first control mask for a set of iterations of a loop by evaluating a condition of the loop, wherein generating the first control mask includes setting a bit of the control mask to a first value when the condition indicates that an operation of the loop is to be executed, and setting the bit of the first control mask to a second value when the condition indicates that the operation of the loop is to be bypassed. The example method also includes compressing indexes corresponding to the first set of iterations of the loop according to the first control mask.

    Abstract translation: 公开了环向量化方法和装置。 一个示例性方法包括:通过评估循环的条件来生成循环的一组迭代的第一控制掩码,其中产生所述第一控制掩码包括当所述条件指示操作时将所述控制掩码的位设置为第一值 并且当条件指示要循环的操作被绕过时,将第一控制掩码的位设置为第二值。 示例性方法还包括根据第一控制掩码压缩对应于循环的第一组迭代的索引。

    PROCÉDÉ D'OPTIMISATION DE TRAITEMENT PARALLÈLE DE DONNÉES SUR UNE PLATEFORME MATÉRIELLE.
    43.
    发明申请
    PROCÉDÉ D'OPTIMISATION DE TRAITEMENT PARALLÈLE DE DONNÉES SUR UNE PLATEFORME MATÉRIELLE. 审中-公开
    在硬件平台上优化并行处理数据的方法

    公开(公告)号:WO2013107819A1

    公开(公告)日:2013-07-25

    申请号:PCT/EP2013/050844

    申请日:2013-01-17

    Applicant: THALES

    CPC classification number: G06F8/452 G06F8/4441 G06F8/453

    Abstract: L'invention concerne un procédé d'optimisation de traitement parallèle de données sur une plateforme matérielle comprenant au moins une unité de calcul comprenant une pluralité d'unités de traitement aptes à exécuter en parallèle une pluralité de tâches exécutables, dans lequel l'ensemble de données à traiter est décomposé en sous-ensembles de données, une même suite d'opérations étant effectuée sur chaque sous-ensemble de données. Le procédé de l'invention comprend l'obtention (50, 52) du nombre maximal de sous-ensembles de données à traiter par une même suite d'opérations, et d'un nombre maximal de tâches exécutables en parallèle par une unité de calcul de la plateforme matérielle, la détermination (54) d'au moins deux découpages de traitement, chaque découpage de traitement correspondant au découpage de l'ensemble de données en un nombre de groupes de données, et à l'assignation d'au moins une tâche exécutable, apte à exécuter ladite suite d'opérations, à chaque sous-ensemble de données dudit groupe de données, et la sélection (60, 62) du découpage de traitement permettant d'obtenir une valeur de mesure optimale selon un critère prédéterminé. Des instructions de code de programmation mettant en œuvre ledit découpage de traitement sélectionné sont alors obtenues. Une utilisation du procédé de l'invention est la sélection d'une plateforme matérielle optimale selon une mesure de performance d'exécution.

    Abstract translation: 本发明涉及一种用于优化硬件平台上的数据的并行处理的方法,包括至少一个计算单元,该计算单元包括能够并行执行多个可执行任务的多个处理单元,其中所有待处理的数据被分解 到数据子集中,在每个数据子集上执行相同的操作序列。 本发明的方法包括通过相同的操作顺序来获得(50,52)要处理的数据的最大数量,以及可以由硬件平台的计算单元并行执行的最大数量的任务, 确定(54)至少两个处理分区,每个所述处理分区对应于所有数据的分割成多个数据组,以及能够执行所述操作序列的至少一个可执行任务的分配, 来自所述数据组的数据的每个子集,以及选择(60,62)所述处理分区,使得可以根据预定标准获得最佳测量值。 然后获得实现所述选择的处理分区的编程代码指令。 本发明方法的一个用途是根据执行性能的测量来选择最佳硬件平台。

    METHOD AND SYSTEM FOR CONVERTING A SINGLE-THREADED SOFTWARE PROGRAM INTO AN APPLICATION-SPECIFIC SUPERCOMPUTER
    44.
    发明申请
    METHOD AND SYSTEM FOR CONVERTING A SINGLE-THREADED SOFTWARE PROGRAM INTO AN APPLICATION-SPECIFIC SUPERCOMPUTER 审中-公开
    将单螺纹软件程序转换为应用特定超级计算机的方法和系统

    公开(公告)号:WO2013074341A1

    公开(公告)日:2013-05-23

    申请号:PCT/US2012/063824

    申请日:2012-11-07

    Abstract: The invention comprises (i) a compilation method for automatically converting a single-threaded software program into an application-specific supercomputer, and (ii) the supercomputer system structure generated as a result of applying this method. The compilation method comprises: (a) Converting an arbitrary code fragment from the application into customized hardware whose execution is functionally equivalent to the software execution of the code fragment; and (b) Generating interfaces on the hardware and software parts of the application, which (i) Perform a software-to-hardware program state transfer at the entries of the code fragment; (ii) Perform a hardware-to-software program state transfer at the exits of the code fragment; and (iii) Maintain memory coherence between the software and hardware memories. If the resulting hardware design is large, it is divided into partitions such that each partition can fit into a single chip. Then, a single union chip is created which can realize any of the partitions.

    Abstract translation: 本发明包括(i)用于将单线程软件程序自动转换为特定应用程序的超级计算机的编译方法,以及(ii)应用该方法生成的超级计算机系统结构。 编译方法包括:(a)将来自应用的任意代码片段转换成其功能上等同于代码片段的软件执行的定制硬件; (b)在应用程序的硬件和软件部分生成接口,(i)在代码片段的条目处执行软件到硬件程序的状态转移; (ii)在代码片段的出口处执行硬件到软件程序状态传输; 和(iii)保持软件和硬件存储器之间的记忆一致性。 如果最终的硬件设计较大,则将其划分为分区,以使每个分区可以适合单个芯片。 然后,创建可以实现任何分区的单个联合芯片。

    コンパイル装置、コンパイルプログラム及びループ並列化方法
    46.
    发明申请
    コンパイル装置、コンパイルプログラム及びループ並列化方法 审中-公开
    编译器,编译程序和循环并行方法

    公开(公告)号:WO2012086148A1

    公开(公告)日:2012-06-28

    申请号:PCT/JP2011/006941

    申请日:2011-12-13

    Inventor: 馬場 大介

    CPC classification number: G06F8/433 G06F8/443 G06F8/4452 G06F8/452

    Abstract:  従来のループ並列化方法では、含まれるループ運搬依存変数について全てのイタレーションにおける値がループを最初から逐次実行することなく算出できるループにおいて、ループ運搬依存変数を含むことを理由にDOALL型の並列化変換は不可能であると判定されるため、逐次実行されるか、ループ運搬依存変数を含むループを逐次に実行するDOACROSS型のループ変換を適応しており、ループ運搬依存が存在する式は並列化できず、マルチプロセッサで効率的に処理できないという課題を有している。 初期値算出コード411、421を生成することにより、並列化前のソースコード400のループ運搬依存を解決し、ソースコード400におけるループを分割して並列実行が行えるサブループ410,420に変換することによりマルチプロセッサ上で効率的に処理することができる。

    Abstract translation: 在常规循环并行化方法中,关于循环,其中可以计算所有循环承载因变量的所有迭代中的值而不从一开始就顺序地执行循环,存在的问题在于不可能通过多处理器进行高效处理 由于执行是顺序的,因为确定了DOALL并行转换是不可能的,因为循环承载的相关变量被包括,或者由于顺序地执行包括循环携带的因变量的循环的DOACROSS循环变换被应用,但是不可能 对于具有循环携带依赖性的表达式来进行并行化。 通过产生初始值计算代码(411,421)来解决在并行化之前关于源代码(400)的循环携带依赖性的问题。 可以通过划分源代码(400)中的循环并且将循环变换成可以并行执行的子循环(410,420)来执行使用多处理器的有效处理。

    PARALLELIZING SEQUENTIAL FRAMEWORKS USING TRANSACTIONS
    48.
    发明申请
    PARALLELIZING SEQUENTIAL FRAMEWORKS USING TRANSACTIONS 审中-公开
    使用交易并行化顺序框架

    公开(公告)号:WO2008151045A1

    公开(公告)日:2008-12-11

    申请号:PCT/US2008/065362

    申请日:2008-05-30

    CPC classification number: G06F8/452 G06F9/467

    Abstract: Various technologies and techniques are disclosed for transforming a sequential loop into a parallel loop for use with a transactional memory system. A transactional memory system is provided. A first section of code containing an original sequential loop is transformed into a second section of code containing a parallel loop that uses transactions to preserve an original input to output mapping. For example, the original sequential loop can be transformed into a parallel loop by taking each iteration of the original sequential loop and generating a separate transaction that follows a pre-determined commit order process. At least some of the separate transactions are executed in different threads. When an unhandled exception is detected that occurs in a particular transaction while the parallel loop is executing, state modifications made by the particular transaction and predecessor transactions are committed, and state modifications made by successor transactions are discarded.

    Abstract translation: 公开了各种技术和技术,用于将顺序循环变换成用于事务存储系统的并行循环。 提供事务性存储系统。 包含原始顺序循环的第一部分代码被转换成包含使用事务保留原始输入以输出映射的并行循环的代码的第二部分。 例如,原始顺序循环可以通过采取原始顺序循环的每次迭代并生成遵循预定的提交订单处理的单独事务来转换成并行循环。 至少一些单独的事务在不同的线程中执行。 当在并行循环执行时检测到在特定事务中发生的未处理的异常时,提交由特定事务和前导事务进行的状态修改,并且由后继事务进行的状态修改被丢弃。

    DATA DISTRIBUTION AND ARRANGEMENT DETERMINATION METHOD FOR PARALLEL COMPUTERS AND APPARATUS FOR THE METHOD
    50.
    发明申请
    DATA DISTRIBUTION AND ARRANGEMENT DETERMINATION METHOD FOR PARALLEL COMPUTERS AND APPARATUS FOR THE METHOD 审中-公开
    用于并行计算机的数据分配和布置确定方法及其方法

    公开(公告)号:WO1998019249A1

    公开(公告)日:1998-05-07

    申请号:PCT/JP1996003179

    申请日:1996-10-30

    Inventor: HITACHI, LTD.

    CPC classification number: G06F8/452

    Abstract: The sorting relation between the dimension of array and loops is determined first, a loop most appropriate as a distribution candidate is selected, and the distribution of array is determined in accordance with the selected loop. Consequently, the time taken to determine the sorting relation is shortened. The possibility that optimum sorting relation is finally employed is increased by leaving a plurality of sorting relation candidates for determining the sorting relation between the dimension of array and loops.

    Abstract translation: 首先确定阵列和循环的维度之间的排序关系,选择最适合作为分布候选的循环,并且根据所选择的循环确定阵列的分布。 因此,缩短了确定排序关系所花费的时间。 通过留下多个用于确定阵列和环路的尺寸之间的分类关系的排序关系候选来增加最终采用最佳排序关系的可能性。

Patent Agency Ranking