-
公开(公告)号:CN113439265A
公开(公告)日:2021-09-24
申请号:CN202080011299.4
申请日:2020-03-14
申请人: 英特尔公司
发明人: A·考克 , J·雷 , A·阿南塔拉曼 , V·安德烈 , A·阿普 , S·科尔曼 , N·加洛泊凡博列斯 , V·乔治 , P·开 , S·金 , M·麦克弗森 , S·马余兰 , E·乌尔德-阿迈德-瓦尔 , V·兰加纳坦 , J·瓦莱里奥
IPC分类号: G06F12/0811
摘要: 本文公开了用于更新多GPU配置中的远程存储器侧高速缓存的系统和方法。在一个实施例中,用于多片架构的图形处理器包括:第一图形处理单元(GPU)(2810),该第一GPU具有第一存储器(2870‑1)、第一存储器侧高速缓存存储器(2880‑1)、第一通信结构(2860‑1)和第一存储器管理单元(MMU)(2855‑1)。图形处理器包括第二GPU(2820),该第二GPU具有第二存储器(2870‑2)、第二存储器侧高速缓存存储器(2880‑2)、第二MMU(2855‑2)和第二通信结构(2860‑2),第二通信结构通信地耦合至第一通信结构。第一MMU配置成用于控制对第一存储器的存储器请求,更新第一存储器中的内容,更新第一存储器侧高速缓存存储器中的内容,并且确定是否更新第二存储器侧高速缓存存储器中的内容。
-
公开(公告)号:CN113366435A
公开(公告)日:2021-09-07
申请号:CN202080011341.2
申请日:2020-03-14
申请人: 英特尔公司
发明人: A·R·阿普 , A·考克 , A·阿南塔拉曼 , E·乌尔德-阿迈德-瓦尔 , J·雷 , M·麦克弗森 , V·安德烈 , N·加洛泊凡博列斯 , V·乔治 , S·马余兰 , V·兰加纳坦 , J·P·艾斯 , P·开 , S·卡玛
IPC分类号: G06F9/30
摘要: 涉及用于数据压缩的技术的方法和装置。在示例中,装置包括处理器,该处理器用于:接收针对存储器段的数据压缩指令;以及响应于数据压缩指令,响应于确定相同存储器值的序列具有超过阈值的长度而对相同存储器值的序列进行压缩。还公开并要求保护其他实施例。
-
公开(公告)号:CN114968366A
公开(公告)日:2022-08-30
申请号:CN202210586709.9
申请日:2020-03-14
申请人: 英特尔公司
发明人: A·考克 , J·雷 , B·阿什博 , J·皮尔斯 , A·阿普 , V·兰加纳坦 , L·斯特里拉马萨尔玛 , E·乌尔德-阿迈德-瓦尔 , A·阿南塔拉曼 , V·安德烈 , N·加洛泊凡博列斯 , V·乔治 , Y·哈雷尔 , 小亚瑟·亨特 , B·英斯科 , S·贾纳斯 , P·开 , M·麦克弗森 , S·马余兰 , M·A·彼得 , M·拉马多斯 , S·沙阿 , K·辛哈 , P·萨蒂 , V·维姆拉帕利
IPC分类号: G06F9/302 , G06F9/38 , G06F12/0811 , G06F12/0862 , G06F12/0866
摘要: 公开了用于提高高速缓存效率和利用率的系统和方法。在一个实施例中,图形处理器包括:处理资源,用于执行图形操作;以及高速缓存的高速缓存控制器,高速缓存耦合至处理资源。高速缓存控制器配置为通过确定默认设置还是指令将控制高速缓存的高速缓存操作来控制高速缓存优先级。
-
公开(公告)号:CN113490917A
公开(公告)日:2021-10-08
申请号:CN202080014451.4
申请日:2020-01-23
申请人: 英特尔公司
发明人: V·安德烈 , A·阿南塔拉曼 , A·R·阿普 , N·加洛坡冯伯里斯 , A·科克 , S·金 , E·乌尔德-艾哈迈德-瓦勒 , M·麦克弗森 , S·马伊尤兰 , V·兰加纳坦 , J·雷 , V·乔治
摘要: 一个实施例提供了一种通用图形处理单元,包括:一组处理元件,用于执行由通用图形处理器执行的第二内核的一个或多个线程组、耦合到该组处理元件的片上存储器,以及与该组处理元件耦合的调度器,调度器将内核的线程组调度到该组处理元件,其中调度器用于调度第二内核的线程组在第一内核的线程组之后执行,响应于确定第二内核依赖于第一内核,第二内核的线程组被配置为访问片上存储器的包含由第一内核的线程组写入的数据的区域。
-
公开(公告)号:CN113424148A
公开(公告)日:2021-09-21
申请号:CN202080014501.9
申请日:2020-03-14
申请人: 英特尔公司
发明人: L·斯特瑞拉马萨尔马 , P·苏提 , V·乔治 , B·阿什博 , A·阿南塔拉曼 , V·安德烈 , A·阿普 , N·加洛坡冯伯里斯 , A·科克 , M·麦克弗森 , S·马伊尤兰 , N·米斯特里 , E·乌尔德-艾哈迈德-瓦勒 , S·帕内尔 , V·兰加纳坦 , J·雷 , A·沙阿 , S·坦格里
IPC分类号: G06F9/38 , G06F12/0862 , G06F9/30
摘要: 本文公开了用于检测跨分片访问、利用经由复制操作的数据多播提供多分片推理缩放和提供页迁移的多分片存储器管理。在一个实施例中,一种用于多分片架构的图形处理器包括:第一图形处理单元(GPU),其具有存储器和存储器控制器;第二图形处理单元(GPU),其具有存储器;以及跨GPU结构,其用于通信地耦合第一GPU和第二GPU。存储器控制器被配置为:确定在多GPU配置中从第一GPU到第二GPU的存储器是否发生频繁的跨分片存储器访问;以及当从第一GPU到第二GPU的存储器发生频繁的跨分片存储器访问时,发送消息以发起数据传送机制。
-
公开(公告)号:CN112534404A
公开(公告)日:2021-03-19
申请号:CN202080004209.9
申请日:2020-03-14
申请人: 英特尔公司
发明人: J·雷 , S·贾纳斯 , V·乔治 , S·马余兰 , A·考克 , A·阿普 , P·萨蒂 , V·兰甘塔纳 , V·安德烈 , A·加格 , Y·哈雷尔 , 小亚瑟·亨特 , S·金 , M·麦克弗森 , E·乌尔德-阿迈德-瓦尔 , W·萨德勒 , L·斯特里拉马萨尔玛 , V·维姆拉帕利
摘要: 本文中描述的实施例包括软件、固件、和硬件逻辑,这些软件、固件、和硬件逻辑提供用于经由脉动处理单元对稀疏数据执行算术的技术。本文中描述的实施例提供用于针对填充零的矩阵和子矩阵跳过计算操作的技术。实施例附加地提供用于维持数据压缩直到处理单元的技术。实施例附加地提供用于稀疏知晓逻辑单元的架构。
-
公开(公告)号:CN112905241B
公开(公告)日:2024-03-29
申请号:CN202110224132.2
申请日:2020-03-14
申请人: 英特尔公司
发明人: J·雷 , S·贾纳斯 , V·乔治 , S·马余兰 , A·考克 , A·阿普 , P·萨蒂 , V·兰甘塔纳 , V·安德烈 , A·加格 , Y·哈雷尔 , 小亚瑟·亨特 , S·金 , M·麦克弗森 , E·乌尔德-阿迈德-瓦尔 , W·萨德勒 , L·斯特里拉马萨尔玛 , V·维姆拉帕利
摘要: 本申请公开了用于矩阵加速器架构的稀疏优化。本文中描述的实施例包括软件、固件、和硬件逻辑,这些软件、固件、和硬件逻辑提供用于经由脉动处理单元对稀疏数据执行算术的技术。本文中描述的实施例提供用于针对填充零的矩阵和子矩阵跳过计算操作的技术。实施例附加地提供用于维持数据压缩直到处理单元的技术。实施例附加地提供用于稀疏知晓逻辑单元的架构。
-
公开(公告)号:CN117689531A
公开(公告)日:2024-03-12
申请号:CN202311777921.4
申请日:2020-03-14
申请人: 英特尔公司
发明人: A·考克 , J·雷 , A·阿南塔拉曼 , V·安德烈 , A·阿普 , S·科尔曼 , N·加洛泊凡博列斯 , V·乔治 , P·开 , S·金 , M·麦克弗森 , S·马余兰 , E·乌尔德-阿迈德-瓦尔 , V·兰加纳坦 , J·瓦莱里奥
IPC分类号: G06T1/20 , G06T1/60 , G06F12/0877
摘要: 本文公开了用于更新多GPU配置中的远程存储器侧高速缓存的系统和方法。在一个实施例中,用于多片架构的图形处理器包括:第一图形处理单元(GPU)(2810),该第一GPU具有第一存储器(2870‑1)、第一存储器侧高速缓存存储器(2880‑1)、第一通信结构(2860‑1)和第一存储器管理单元(MMU)(2855‑1)。图形处理器包括第二GPU(2820),该第二GPU具有第二存储器(2870‑2)、第二存储器侧高速缓存存储器(2880‑2)、第二MMU(2855‑2)和第二通信结构(2860‑2),第二通信结构通信地耦合至第一通信结构。第一MMU配置成用于控制对第一存储器的存储器请求,更新第一存储器中的内容,更新第一存储器侧高速缓存存储器中的内容,并且确定是否更新第二存储器侧高速缓存存储器中的内容。
-
公开(公告)号:CN117120975A
公开(公告)日:2023-11-24
申请号:CN202280025691.3
申请日:2022-03-16
申请人: 英特尔公司
IPC分类号: G06F9/30
摘要: 一种处理装置包括通用并行处理引擎,该通用并行处理引擎包括:多个处理元件的集合,包括单精度浮点单元、双精度浮点单元和整数单元;矩阵加速器,包括一个或多个脉动阵列;第一寄存器堆,与第一读取控制电路耦合,其中,第一读取控制电路与多个处理元件的集合和矩阵加速器耦合,以对来自多个处理元件的集合和矩阵加速器的对第一寄存器堆的读取请求进行仲裁;以及第二寄存器堆,与第二读取控制电路耦合,其中,第二读取控制电路与矩阵加速器耦合,以对来自矩阵加速器的对第二寄存器堆的读取请求进行仲裁并限制多个处理元件的集合对第二寄存器堆的访问。
-
公开(公告)号:CN112330523A
公开(公告)日:2021-02-05
申请号:CN202010848468.1
申请日:2018-04-27
申请人: 英特尔公司
发明人: A·科克 , M·麦克弗森 , J·雷 , 姚安邦 , L·马 , L·赫德 , S·巴格索尔基 , J·维斯特 , A·阿普 , B·阿什鲍格 , D·金 , E·奥尔德-艾哈迈德-瓦尔 , P·唐 , X·陈 , B·拉克什马南 , K·尼利斯 , M·斯特里克兰
IPC分类号: G06T1/20 , G06T1/60 , G06F3/14 , G06F7/483 , G06F9/30 , G06F9/38 , G06F9/50 , G06N3/04 , G06N3/08 , G06N3/063 , G06N20/00 , G06T15/00
摘要: 本发明标题为“低精度机器学习操作的计算优化”。一个实施例提供了一种包括动态精度浮点单元的通用图形处理单元,所述动态精度浮点单元包括控制单元,所述控制单元具有精度跟踪硬件逻辑以跟踪与目标精度相关的计算数据的精度位的可用数量,其中动态精度浮点单元包括计算逻辑来以多个精度输出数据。
-
-
-
-
-
-
-
-
-