実行制御方法及び情報処理装置
    31.
    发明申请
    実行制御方法及び情報処理装置 审中-公开
    执行控制方法和信息处理装置

    公开(公告)号:WO2014064798A1

    公开(公告)日:2014-05-01

    申请号:PCT/JP2012/077599

    申请日:2012-10-25

    Inventor: 稲田 由江

    Abstract:  本技術によれば、内部に条件分岐を含み且つ予め指定されたループを含むソースコードから生成されたオブジェクトコードに含まれ且つ条件分岐がそのままコード化されたループについての第1のコード、又はオブジェクトコードに含まれ且つ条件分岐による条件が真となるループインデックスを抽出した上で抽出されたループインデックスのみについて前記条件が真となる場合における分岐先演算を実行するための第2のコードを実行している間において、条件分岐による条件が真となった回数についての特徴量を取得する。そして、取得された特徴量に基づき、第2のコードと、オブジェクトコードに含まれ且つ述語付き命令を用いて条件分岐による分岐先演算のいずれかの演算結果をメモリに書き込むための第3のコードとのうちいずれかをプロセッサに実行させる。

    Abstract translation: 根据该技术,在执行以下任意一种期间获取与条件被判断为条件分支的次数有关的特征值:包括在源代码中生成的目标代码中的第一代码, 指定的循环,包括其中的条件分支,所述第一代码用于循环编码,而不改变其中的条件分支; 或包括在目标代码中的第二代码,并且在提取其中状态被条件分支确定为为真的循环索引时,仅针对所提取的循环索引执行分支目的地计算 情况确定为真的情况。 第二代码或包含在目标代码中的第三代码,并且使用预定指令在存储器中写入从条件分支导出的分支目的地计算的计算结果,在处理器中执行 获得的特征值的基础。

    EFFICIENT IMPLEMENTATION OF RSA USING GPU/CPU ARCHITECTURE
    32.
    发明申请
    EFFICIENT IMPLEMENTATION OF RSA USING GPU/CPU ARCHITECTURE 审中-公开
    使用GPU / CPU架构的RSA的有效实现

    公开(公告)号:WO2013081596A1

    公开(公告)日:2013-06-06

    申请号:PCT/US2011/062585

    申请日:2011-11-30

    CPC classification number: G06F9/38 G06F8/452 G06F9/30 G06F21/00

    Abstract: Various embodiments are directed to a heterogeneous processor architecture comprised of a CPU and a GPU on the same processor die. The heterogeneous processor architecture may optimize source code in a GPU compiler using vector strip mining to reduce instructions of arbitrary vector lengths into GPU supported vector lengths and loop peeling. It may be first determined that the source code is eligible for optimization if more than one machine code instruction of compiled source code under-utilizes GPU instruction bandwidth limitations. The initial vector strip mining results may be discarded and the first iteration of the inner loop body may be peeled out of the loop. The type of operands in the source code may be lowered and the peeled out inner loop body of source code may be vector strip mined again to obtain optimized source code.

    Abstract translation: 各种实施例涉及由同一处理器管芯上的CPU和GPU组成的异构处理器架构。 异构处理器架构可以使用向量带挖掘来优化GPU编译器中的源代码,以将任意矢量长度的指令减少到GPU支持的矢量长度和循环剥离。 如果编译源代码的多个机器码指令利用了GPU指令带宽限制,则可以首先确定源代码是否符合优化条件。 可以丢弃初始矢量条带挖掘结果,并且内环体的第一次迭代可能被剥离出环路。 可以降低源代码中的操作数类型,并且可以再次剥离源代码的剥离内圈体,以获得优化的源代码。

    INTERLEAVING DATA ACCESSES ISSUED IN RESPONSE TO VECTOR ACCESS INSTRUCTIONS
    33.
    发明申请
    INTERLEAVING DATA ACCESSES ISSUED IN RESPONSE TO VECTOR ACCESS INSTRUCTIONS 审中-公开
    响应向导访问指令发出数据访问

    公开(公告)号:WO2013045919A1

    公开(公告)日:2013-04-04

    申请号:PCT/GB2012/052383

    申请日:2012-09-26

    Abstract: A vector data access unit for accessing data stored within a data store in response to decoded vector data access instructions is disclosed. Each of the vector data access instructions comprise a plurality of elements indicating a data access to be performed, the elements being in an order within the vector data access instruction that the corresponding data access is instructed to be performed in. The vector data access unit comprises data access ordering circuitry for issuing data access requests indicated by the elements to the data store, the data access ordering circuitry being configured in response to receipt of at least two decoded vector data access instructions, an earlier of the at least two decoded vector data access instructions being received before a later of the at least two decoded vector instructions and one of the at least two decoded vector data access instructions being a write instruction and to an indication that data accesses from the at least two decoded vector data access instructions can be interleaved to a limited extent, to: determine for each of the at least two vector data access instructions, from a position of the elements within the plurality of elements which of the plurality of data accesses indicated by the plurality of elements is a next data access to be performed for the vector data access instructions, the data accesses being performed in the instructed order; determine an element indicating the next data access for each of said vector data access instructions; select one of the next data accesses as a next data access to be issued to the data store in dependence upon an order the at least two vector data instructions were received in and the position of the elements indicating the next data accesses relative to each other within their respective plurality of elements, subject to a constraint that a difference between a numerical position of the element indicating the next data access within the plurality of elements of a later of the vector data access instructions and a numerical position of the element indicating the next data access within the plurality of elements of an earlier vector access data instruction is less than a predetermined value.

    Abstract translation: 公开了一种用于响应于解码的矢量数据访问指令访问存储在数据存储器内的数据的向量数据访问单元。 矢量数据访问指令中的每一个包括指示要执行的数据访问的多个元素,所述元素处于向量数据访问指令内的顺序,指示相应的数据访问被执行。向量数据访问单元包括 数据访问排序电路,用于将由所述元件指示的数据访问请求发布到所述数据存储器,所述数据访问排序电路被配置为响应于接收到至少两个解码的矢量数据访问指令,所述至少两个解码矢量数据访问中的较早者 所述指令在所述至少两个解码矢量指令之后被接收,并且所述至少两个解码矢量数据访问指令中的一个是写指令,并且指示可以交织来自所述至少两个解码矢量数据访问指令的数据访问 在有限的程度上:确定至少两个向量数据访问指令中的每一个, 从多个元素中的元素的位置,由多个元素指示的多个数据访问中的哪个元素是要向量数据访问指令执行的下一个数据访问,以指示的顺序执行数据访问; 确定指示每个所述向量数据访问指令的下一个数据访问的元素; 根据接收到的至少两个向量数据指令的顺序以及指示相对于彼此的下一次数据访问的元素的位置,选择下一个数据访问之一作为要发布到数据存储的下一个数据访问 它们各自的多个元素受到约束,即指示下一个矢量数据访问指令的多个元素中的下一个数据访问的元素的数字位置与指示下一个数据的元素的数字位置之间的差异 早期向量访问数据指令的多个元素内的访问小于预定值。

    OPTIMISATION OF LOOPS AND DATA FLOW SECTIONS
    34.
    发明申请
    OPTIMISATION OF LOOPS AND DATA FLOW SECTIONS 审中-公开
    LOOPS和数据流程部分的优化

    公开(公告)号:WO2011079942A1

    公开(公告)日:2011-07-07

    申请号:PCT/EP2010/007950

    申请日:2010-12-28

    Inventor: VORBACH, Martin

    CPC classification number: G06F15/7807 G06F8/41 G06F8/4441 G06F8/452 G06F9/3885

    Abstract: The present invention relates to a method for compiling code for a multi-core processor, comprising: detecting and optimizing a loop, partitioning the loop into partitions executable and mappable on physical hardware with optimal instruction level parallelism, optimizing the loop iterations and/or loop counter for ideal mapping on hardware, chaining the loop partitions generating a list representing the execution sequence of the partitions.

    Abstract translation: 本发明涉及一种用于编译多核处理器的代码的方法,包括:检测和优化循环,将循环划分成可执行并可在物理硬件上映射的分区,具有最佳指令级并行性,优化循环迭代和/或循环 计数器用于在硬件上进行理想映射,链接循环分区,生成表示分区执行顺序的列表。

    LOCKLESS SCHEDULING OF DECREASING CHUNKS OF A LOOP IN A PARALLEL PROGRAM
    36.
    发明申请
    LOCKLESS SCHEDULING OF DECREASING CHUNKS OF A LOOP IN A PARALLEL PROGRAM 审中-公开
    在并行程序中减少循环块的无损调度

    公开(公告)号:WO2007048075A3

    公开(公告)日:2007-06-14

    申请号:PCT/US2006041604

    申请日:2006-10-23

    CPC classification number: G06F8/452

    Abstract: A loop can be executed on a parallel processor by partitioning the loop iterations into chunks of decreasing size. An increase in speed can be realized by reducing the time taken by a thread when determining the next set of iterations to be assigned to a thread. The next set of iterations can be determined from a chunk index stored in a shared variable. Using a shared variable enables threads to perform operations concurrently to reduce the wait time to the period while another thread increments the shared variable.

    Abstract translation: 通过将循环迭代划分为尺寸减小的块,可以在并行处理器上执行循环。 速度的提高可以通过减少线程在确定下一组要分配给线程的迭代时花费的时间来实现。 下一组迭代可以从存储在共享变量中的块索引确定。 使用共享变量可使线程同时执行操作,以减少等待时间到另一个线程增加共享变量的时间。

    LOCKLESS SCHEDULING OF DECREASING CHUNKS OF A LOOP IN A PARALLEL PROGRAM
    37.
    发明申请
    LOCKLESS SCHEDULING OF DECREASING CHUNKS OF A LOOP IN A PARALLEL PROGRAM 审中-公开
    在并行程序中减少循环的闭锁调度

    公开(公告)号:WO2007048075A2

    公开(公告)日:2007-04-26

    申请号:PCT/US2006/041604

    申请日:2006-10-23

    CPC classification number: G06F8/452

    Abstract: A loop can be executed on a parallel processor by partitioning the loop iterations into chunks of decreasing size. An increase in speed can be realized by reducing the time taken by a thread when determining the next set of iterations to be assigned to a thread. The next set of iterations can be determined from a chunk index stored in a shared variable. Using a shared variable enables threads to perform operations concurrently to reduce the wait time to the period while another thread increments the shared variable.

    Abstract translation: 可以在并行处理器上执行循环,将循环迭代分为大小减小的块。 通过减少线程在确定要分配给线程的下一组迭代时所花费的时间,可以实现速度的提高。 可以从存储在共享变量中的块索引确定下一组迭代。 使用共享变量可以使线程同时执行操作,以减少等待时间,而另一个线程会增加共享变量。

    一种硬件加速方法、编译器以及设备

    公开(公告)号:WO2017000839A1

    公开(公告)日:2017-01-05

    申请号:PCT/CN2016/087051

    申请日:2016-06-24

    CPC classification number: G06F8/453 G06F8/452 G06F9/3836 G06F15/163

    Abstract: 本发明实施例公开了一种硬件加速方法、编译器和设备,用于提高代码执行效率从而实现硬件加速。本发明实施例方法包括:编译器获取编译策略信息以及源代码;所述编译策略信息指示第一代码类型与第一处理器匹配,第二代码类型与第二处理器匹配;所述编译器根据所述编译策略信息分析所述源代码中的代码段,确定属于第一代码类型的第一代码段或属于第二代码类型的第二代码段;所述编译器将第一代码段编译为第一可执行代码,将所述第一可执行代码发往所述第一处理器;将第二代码段编译为第二可执行代码,将所述第二可执行代码发往所述第二处理器。

    EXTRACTING SYSTEM ARCHITECTURE IN HIGH LEVEL SYNTHESIS
    40.
    发明申请
    EXTRACTING SYSTEM ARCHITECTURE IN HIGH LEVEL SYNTHESIS 审中-公开
    高级合成中的提取体系结构

    公开(公告)号:WO2015187635A1

    公开(公告)日:2015-12-10

    申请号:PCT/US2015/033693

    申请日:2015-06-02

    Applicant: XILINX, INC.

    Abstract: Extracting a system architecture in high level synthesis includes determining a first function of a high level programming language description and a second function contained within a control flow construct of the high level programming description (210, 215, 220). The second function is determined to be a data consuming function of the first function (225). Within a circuit design, a port including a local memory is automatically generated (240). The port couples a first circuit block implementation of the first function to a second circuit block implementation of the second function within the circuit design.

    Abstract translation: 在高级合成中提取系统架构包括确定高级编程语言描述的第一函数和包含在高级编程描述(210,215,220)的控制流结构内的第二函数。 第二功能被确定为第一功能的数据消耗功能(225)。 在电路设计中,自动生成包括本地存储器的端口(240)。 端口将第一功能的第一电路块实现耦合到电路设计内的第二功能的第二电路块实现。

Patent Agency Ranking