用于8位浮点矩阵点积指令的装置、方法和系统

    公开(公告)号:CN118605946A

    公开(公告)日:2024-09-06

    申请号:CN202410736985.8

    申请日:2021-12-08

    申请人: 英特尔公司

    摘要: 本申请公开了用于8位浮点矩阵点积指令的装置、方法和系统。描述了涉及8位浮点矩阵点积指令的系统、方法和装置。处理器实施例包括:取出电路,用于取出指令,该指令具有用于指定操作码和具有单精度元素的目的地矩阵的位置、第一源矩阵的位置和第二源矩阵的位置的字段,源矩阵具有各自包括8位浮点值的四元组的元素,该操作码用于指示执行电路用于引起:对于第一源矩阵的每个元素和第二源矩阵的对应元素,将8位浮点值转换为单精度值,将不同对的经转换的单精度值相乘以生成多个结果,并且将结果与目的地矩阵的对应元素的先前内容累加;解码电路,用于对所取出的指令解码;以及执行电路,用于如操作码所指定地对经解码的指令作出响应。

    用于执行将矩阵变换为行交错格式的指令的系统和方法

    公开(公告)号:CN117724766A

    公开(公告)日:2024-03-19

    申请号:CN202311748853.9

    申请日:2019-08-27

    申请人: 英特尔公司

    IPC分类号: G06F9/38

    摘要: 本申请公开了用于执行将矩阵变换为行交错格式的指令的系统和方法。所公开实施例涉及用于执行用于将矩阵变换为行交错格式的指令的系统和方法。在一个示例中,处理器包括:取出和解码电路,用于取出并解码指令,该指令具有用于指定操作码以及源和目的地矩阵的位置的字段,其中操作码指示处理器用于将所指定的源矩阵变换为具有行交错格式的所指定的目的地矩阵;以及执行电路,用于通过经由以下操作将所指定的源矩阵变换为所指定的RowInt格式化的目的地矩阵来对经解码的指令作出响应:以行为主或列为主的顺序使所指定的源矩阵的每个J元素子列的J个元素交错为所指定的目的地矩阵的K宽度子矩阵,K宽度子矩阵具有K列和足够的行以保存J个元素。

    用于绝对差总和的指令和逻辑
    4.
    发明公开

    公开(公告)号:CN117083596A

    公开(公告)日:2023-11-17

    申请号:CN202280025004.8

    申请日:2022-02-18

    申请人: 英特尔公司

    IPC分类号: G06F9/38

    摘要: 在实施例中,处理器包括:取得电路,该取得电路用于取得指令,该指令包括绝对差总和(SAD)指令;解码电路,该解码电路用于对SAD指令进行解码;以及执行电路,该执行电路用于在经解码的SAD指令的执行期间基于多个输入向量来生成SAD输出向量,该SAD输出向量包括多个绝对差值。其他实施例被描述以及被要求保护。

    浮点缩放处理器、方法、系统和指令

    公开(公告)号:CN108647044B

    公开(公告)日:2022-09-13

    申请号:CN201810437268.X

    申请日:2011-12-28

    申请人: 英特尔公司

    IPC分类号: G06F9/30

    摘要: 一方面的一种方法包括接收浮点缩放指令。浮点缩放指令指示包括一个或多个浮点数据元素的第一源、包括一个或多个相应浮点数据元素的第二源、以及目的地。响应于浮点缩放指令,将结果存储在目的地中。结果包括一个或多个相应结果浮点数据元素,每个结果浮点数据元素都包括第二源的相应浮点数据元素乘以第一源的一个或多个浮点数据元素的基数的代表第一源的相应浮点数据元素的整数次幂。公开了其它方法、装置、系统和指令。

    用于执行向量位混洗的方法和装置

    公开(公告)号:CN107003852B

    公开(公告)日:2021-03-26

    申请号:CN201580064635.0

    申请日:2015-11-25

    申请人: 英特尔公司

    IPC分类号: G06F9/30 G06F15/80

    摘要: 用于执行向量位混洗的装置和方法。例如,处理器的一个实施例包括:第一向量寄存器,用于存储多个源数据元素;第二向量寄存器,用于存储多个控制元素,控制元素中的每一个包括多个位字段,每个位字段用于与目的地掩码寄存器中的对应位位置相关联、并且用于标识来自源数据元素中的每一个的会被复制到特定位位置中的每一个的位;以及向量位混洗逻辑,用于从第二向量寄存器读取每个位字段以标识来自源数据元素中的每一个的位,并且响应地将来自源数据元素中的每一个的位复制到目的地掩码寄存器中的对应位位置中的每一个。

    用于复紧缩数据元素和实紧缩数据元素的乘法和累加的装置和方法

    公开(公告)号:CN109683961A

    公开(公告)日:2019-04-26

    申请号:CN201810996655.7

    申请日:2018-08-29

    申请人: 英特尔公司

    IPC分类号: G06F9/302 G06F9/38

    摘要: 公开了用于复紧缩数据和实紧缩数据的乘法和加法的装置和方法。示例方法包括:将第一源寄存器中所选择的虚数据元素与第二源寄存器中所选择的实数据元素相乘,并且将第一源寄存器中所选择的实数据元素与第二源寄存器中所选择的虚数据元素相乘,以生成多个虚乘积;将多个虚乘积的第一子集相加以生成第一临时结果,并且将多个虚乘积的第二子集相加以生成第二临时结果;对第一和第二临时结果执行取反以分别生成第三和第四临时结果;将第三临时结果与来自目的地寄存器的第一数据累加以生成第一最终结果,并且将第四临时结果与来自目的地寄存器的第二数据累加以生成第二最终结果;以及将第一和第二最终结果往回存储在目的地寄存器中。

    用于执行紧缩数据元素的双有符号和无符号乘法的装置和方法

    公开(公告)号:CN109582365A

    公开(公告)日:2019-04-05

    申请号:CN201810994549.5

    申请日:2018-08-29

    申请人: 英特尔公司

    IPC分类号: G06F9/302 G06F9/30 G06F9/38

    摘要: 公开了用于执行紧缩数据元素的双有符号和无符号乘法的装置和方法。用于执行紧缩数据元素的双同时乘法的装置和方法。例如,处理器的一个实施例包括:解码器,用于对第一指令解码以生成经解码的指令;第一源寄存器,用于存储第一多个紧缩字节数据元素;第二源寄存器,用于存储第二多个紧缩字节数据元素;执行电路,用于执行经解码的指令,该执行电路包括:乘法器电路,用于同时将第一多个紧缩字节数据元素中的每一个与第二多个紧缩字节数据元素中对应的紧缩字节数据元素相乘以生成多个乘积;加法器电路,用于将乘积的所指定的集合相加以生成针对乘积的每一个集合的临时结果;零扩展或符号扩展电路,用于对针对每一个集合的临时结果进行零扩展或符号扩展以生成针对每一个集合的扩展临时结果;累加电路,用于将扩展临时结果中的每一个扩展临时结果与存储在第三源寄存器中的所选择的紧缩数据值组合以生成多个最终结果;以及目的地寄存器,用于将多个最终结果作为多个紧缩数据元素存储在所指定的数据元素位置中。