-
公开(公告)号:CN118605946A
公开(公告)日:2024-09-06
申请号:CN202410736985.8
申请日:2021-12-08
申请人: 英特尔公司
摘要: 本申请公开了用于8位浮点矩阵点积指令的装置、方法和系统。描述了涉及8位浮点矩阵点积指令的系统、方法和装置。处理器实施例包括:取出电路,用于取出指令,该指令具有用于指定操作码和具有单精度元素的目的地矩阵的位置、第一源矩阵的位置和第二源矩阵的位置的字段,源矩阵具有各自包括8位浮点值的四元组的元素,该操作码用于指示执行电路用于引起:对于第一源矩阵的每个元素和第二源矩阵的对应元素,将8位浮点值转换为单精度值,将不同对的经转换的单精度值相乘以生成多个结果,并且将结果与目的地矩阵的对应元素的先前内容累加;解码电路,用于对所取出的指令解码;以及执行电路,用于如操作码所指定地对经解码的指令作出响应。
-
公开(公告)号:CN117724766A
公开(公告)日:2024-03-19
申请号:CN202311748853.9
申请日:2019-08-27
申请人: 英特尔公司
IPC分类号: G06F9/38
摘要: 本申请公开了用于执行将矩阵变换为行交错格式的指令的系统和方法。所公开实施例涉及用于执行用于将矩阵变换为行交错格式的指令的系统和方法。在一个示例中,处理器包括:取出和解码电路,用于取出并解码指令,该指令具有用于指定操作码以及源和目的地矩阵的位置的字段,其中操作码指示处理器用于将所指定的源矩阵变换为具有行交错格式的所指定的目的地矩阵;以及执行电路,用于通过经由以下操作将所指定的源矩阵变换为所指定的RowInt格式化的目的地矩阵来对经解码的指令作出响应:以行为主或列为主的顺序使所指定的源矩阵的每个J元素子列的J个元素交错为所指定的目的地矩阵的K宽度子矩阵,K宽度子矩阵具有K列和足够的行以保存J个元素。
-
公开(公告)号:CN108431771B
公开(公告)日:2023-12-19
申请号:CN201680075267.4
申请日:2016-11-23
申请人: 英特尔公司
发明人: C·S·安德森 , M·A·科尔内亚-哈瑟甘 , E·乌尔德-阿迈德-瓦尔 , R·凡伦天 , J·考博尔 , N·阿斯塔菲耶夫 , M·J·查尼 , M·B·吉尔卡尔 , A·格雷德斯廷 , S·卢巴诺维奇 , Z·斯波伯
摘要: 一种示例处理器包括寄存器和融合乘加(FMA)低功能单元。所述寄存器存储第一、第二和第三浮点(FP)值。所述FMA低功能单元接收用于执行FMA低运算的请求:将所述第一FP值与所述第二FP值相乘以便获得第一乘积值;将所述第一乘积与所述第三FP值相加以便生成第一结果值;舍入所述第一结果以便生成第一FMA值;将所述第一FP值与所述第二FP值相乘以便获得第二乘积值;将所述第二乘积值与所述第三FP值相加以便生成第二结果值;并且从所述第二结果值中减去所述FMA值以便获得第三结果值,所述第三结果值然后能够被归一化并舍入(FMA低结果)并且
-
-
公开(公告)号:CN108647044B
公开(公告)日:2022-09-13
申请号:CN201810437268.X
申请日:2011-12-28
申请人: 英特尔公司
IPC分类号: G06F9/30
摘要: 一方面的一种方法包括接收浮点缩放指令。浮点缩放指令指示包括一个或多个浮点数据元素的第一源、包括一个或多个相应浮点数据元素的第二源、以及目的地。响应于浮点缩放指令,将结果存储在目的地中。结果包括一个或多个相应结果浮点数据元素,每个结果浮点数据元素都包括第二源的相应浮点数据元素乘以第一源的一个或多个浮点数据元素的基数的代表第一源的相应浮点数据元素的整数次幂。公开了其它方法、装置、系统和指令。
-
公开(公告)号:CN112711443A
公开(公告)日:2021-04-27
申请号:CN202110203969.9
申请日:2019-10-09
申请人: 英特尔公司
摘要: 所公开实施例涉及用于执行16位浮点向量点积指令的系统和方法。在一个示例中,处理器包括:取出电路,用于取出指令,该指令具有用于指定操作码以及第一源向量、第二源向量和目的地向量的位置的字段,该操作码用于指示执行电路用于将所指定的第一源和第二源的N对16位浮点格式化元素相乘,并且将所得的乘积与所指定的目的地的对应的单精度元素的先前内容累加;解码电路,用于对所取出的指令解码;以及执行电路,用于如该操作码所指定地对经解码的指令作出响应。
-
公开(公告)号:CN107003852B
公开(公告)日:2021-03-26
申请号:CN201580064635.0
申请日:2015-11-25
申请人: 英特尔公司
摘要: 用于执行向量位混洗的装置和方法。例如,处理器的一个实施例包括:第一向量寄存器,用于存储多个源数据元素;第二向量寄存器,用于存储多个控制元素,控制元素中的每一个包括多个位字段,每个位字段用于与目的地掩码寄存器中的对应位位置相关联、并且用于标识来自源数据元素中的每一个的会被复制到特定位位置中的每一个的位;以及向量位混洗逻辑,用于从第二向量寄存器读取每个位字段以标识来自源数据元素中的每一个的位,并且响应地将来自源数据元素中的每一个的位复制到目的地掩码寄存器中的对应位位置中的每一个。
-
公开(公告)号:CN109992304A
公开(公告)日:2019-07-09
申请号:CN201811452229.3
申请日:2018-11-30
申请人: 英特尔公司
发明人: R·萨德 , S·卢巴诺维奇 , A·格雷德斯廷 , Z·斯波比尔 , A·海内克 , R·凡伦天 , M·J·查尼 , B·托尔 , J·科巴尔 , E·乌尔德-阿迈德-瓦尔 , M·阿德尔曼
摘要: 本文详述的实施例涉及用于加载片寄存器对的系统和方法。在一个示例中,一种处理器包括:解码电路,用于对加载矩阵对指令解码,该加载指令对指令具有用于操作码、源标识符和目的地标识符的字段,该源标识符和目的地标识符用于分别标识源矩阵和目的地矩阵,每个矩阵都具有等于真的PAIR参数;以及执行电路,用于执行经解码的加载矩阵对指令,以分别从所标识的源矩阵的左片和右片的对应元素位置加载所标识的目的地矩阵的左片和右片的每个元素,其中执行从第一行开始一次对所标识的目的地矩阵的一行进行操作。
-
公开(公告)号:CN109683961A
公开(公告)日:2019-04-26
申请号:CN201810996655.7
申请日:2018-08-29
申请人: 英特尔公司
摘要: 公开了用于复紧缩数据和实紧缩数据的乘法和加法的装置和方法。示例方法包括:将第一源寄存器中所选择的虚数据元素与第二源寄存器中所选择的实数据元素相乘,并且将第一源寄存器中所选择的实数据元素与第二源寄存器中所选择的虚数据元素相乘,以生成多个虚乘积;将多个虚乘积的第一子集相加以生成第一临时结果,并且将多个虚乘积的第二子集相加以生成第二临时结果;对第一和第二临时结果执行取反以分别生成第三和第四临时结果;将第三临时结果与来自目的地寄存器的第一数据累加以生成第一最终结果,并且将第四临时结果与来自目的地寄存器的第二数据累加以生成第二最终结果;以及将第一和第二最终结果往回存储在目的地寄存器中。
-
公开(公告)号:CN109582365A
公开(公告)日:2019-04-05
申请号:CN201810994549.5
申请日:2018-08-29
申请人: 英特尔公司
CPC分类号: G06F9/3001 , G06F7/00 , G06F9/30014 , G06F9/30036 , G06F9/3016 , G06F9/30098 , G06F9/30145 , G06F9/3889 , G06F9/3893
摘要: 公开了用于执行紧缩数据元素的双有符号和无符号乘法的装置和方法。用于执行紧缩数据元素的双同时乘法的装置和方法。例如,处理器的一个实施例包括:解码器,用于对第一指令解码以生成经解码的指令;第一源寄存器,用于存储第一多个紧缩字节数据元素;第二源寄存器,用于存储第二多个紧缩字节数据元素;执行电路,用于执行经解码的指令,该执行电路包括:乘法器电路,用于同时将第一多个紧缩字节数据元素中的每一个与第二多个紧缩字节数据元素中对应的紧缩字节数据元素相乘以生成多个乘积;加法器电路,用于将乘积的所指定的集合相加以生成针对乘积的每一个集合的临时结果;零扩展或符号扩展电路,用于对针对每一个集合的临时结果进行零扩展或符号扩展以生成针对每一个集合的扩展临时结果;累加电路,用于将扩展临时结果中的每一个扩展临时结果与存储在第三源寄存器中的所选择的紧缩数据值组合以生成多个最终结果;以及目的地寄存器,用于将多个最终结果作为多个紧缩数据元素存储在所指定的数据元素位置中。
-
-
-
-
-
-
-
-
-