欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

您需要了解的有關(guān)GPU架構(gòu)及其發(fā)展歷程的一切信息

隨著GPU 計(jì)算用例的快速增長(zhǎng),對(duì)圖形處理單元 (GPU) 的需求激增。事實(shí)上,對(duì) GPU 的需求一直很高,短缺現(xiàn)在很常見。在這里,我們將深入了解 Nvidia GPU 的架構(gòu),以幫助您了解 GPU 的工作原理以及它們?yōu)楹畏浅_m合眾多現(xiàn)代應(yīng)用程序。

游戲開發(fā)者專用GPU服務(wù)器指南

GPU的基本架構(gòu)

正如我們?cè)贕PU 與 CPU:主要區(qū)別是什么?,GPU 使用許多輕量級(jí)處理核心,利用數(shù)據(jù)并行性,并具有高內(nèi)存吞吐量。雖然具體組件因型號(hào)而異,但從根本上說,大多數(shù)現(xiàn)代 GPU 使用單指令多數(shù)據(jù) (SIMD) 流架構(gòu)。要理解這意味著什么——以及它為什么重要——讓我們看一下 Flynn 的分類法。

什么是弗林分類法?

Flynn's Taxonomy 是斯坦福大學(xué)的 Michael J. Flynn 對(duì)計(jì)算機(jī)體系結(jié)構(gòu)進(jìn)行的分類。弗林分類法背后的基本思想很簡(jiǎn)單:計(jì)算由 2 個(gè)流(數(shù)據(jù)和指令流)組成,可以按順序(一次 1 個(gè)流)或并行(一次處理多個(gè)流)處理。兩個(gè)數(shù)據(jù)流和兩種可能的處理方法導(dǎo)致弗林分類法中的 4 個(gè)不同類別。讓我們逐一看看。

單指令單數(shù)據(jù) (SISD)

SISD 流是一種架構(gòu),其中單個(gè)指令流(例如程序)在一個(gè)數(shù)據(jù)流上執(zhí)行。這種架構(gòu)用于具有單核處理器的舊計(jì)算機(jī)以及許多簡(jiǎn)單的計(jì)算設(shè)備。

單指令多數(shù)據(jù) (SIMD)

SIMD 流架構(gòu)具有單個(gè)控制處理器和指令存儲(chǔ)器,因此在任何給定時(shí)間點(diǎn)只能運(yùn)行一條指令。該單條指令被復(fù)制并同時(shí)在每個(gè)內(nèi)核上運(yùn)行。這是可能的,因?yàn)槊總€(gè)處理器都有自己的專用內(nèi)存,允許在數(shù)據(jù)級(jí)別進(jìn)行并行處理(也稱為“數(shù)據(jù)并行處理”)。SIMD 的根本優(yōu)勢(shì)在于數(shù)據(jù)并行性使其能夠快速(多個(gè)處理器做同一件事)和高效(只有一個(gè)指令單元)執(zhí)行計(jì)算。

多指令單數(shù)據(jù) (MISD)

MISD 流架構(gòu)實(shí)際上是 SIMD 架構(gòu)的逆向。使用 MISD,多個(gè)指令在同一數(shù)據(jù)流上執(zhí)行。今天 MISD 的用例非常有限。其他架構(gòu)之一可以更好地解決大多數(shù)實(shí)際應(yīng)用程序。

多指令多數(shù)據(jù) (MIMD)

MIMD 流架構(gòu)為數(shù)據(jù)流和指令流提供并行性。使用 MIMD,多個(gè)處理器針對(duì)不同的數(shù)據(jù)流獨(dú)立執(zhí)行指令流。

是什么讓 SIMD 最適合 GPU?

現(xiàn)在我們了解了不同的架構(gòu),讓我們考慮一下為什么 SIMD 是 GPU 的最佳選擇。當(dāng)您了解到從根本上說圖形處理以及許多其他常見的 GPU 計(jì)算用例只是大規(guī)模地一遍又一遍地運(yùn)行相同的數(shù)學(xué)函數(shù)時(shí),答案就變得很直觀了。在這種情況下,許多處理器在多個(gè)數(shù)據(jù)集上運(yùn)行相同的指令是理想的。

恰當(dāng)?shù)睦樱赫{(diào)整像素的視頻亮度依賴于使用 RGB(紅綠藍(lán))值的簡(jiǎn)單算法。多次執(zhí)行同一功能是產(chǎn)生所需結(jié)果的必要條件,而 SIMD 是該用例的理想選擇。相反,MIMD 在需要執(zhí)行多個(gè)離散計(jì)算的應(yīng)用程序中最有效,例如計(jì)算機(jī)輔助設(shè)計(jì) (CAD)。

SIMT 呢?

如果您熟悉 GPU,您可能聽說過單指令多線程 (SIMT) 這個(gè)術(shù)語(yǔ)。那么 SIMT 在哪里適合 Flynn 的分類法?SIMT 可以看作是 SIMD 的擴(kuò)展。它將多線程添加到 SIMD,從而提高了效率,因?yàn)橹噶瞰@取開銷更少。

CUDA并行計(jì)算平臺(tái)

我們理解 GPU 架構(gòu)的下一步將我們引向 Nvidia 流行的計(jì)算統(tǒng)一設(shè)備架構(gòu) (CUDA) 并行計(jì)算平臺(tái)。通過提供一個(gè) API,使開發(fā)人員能夠優(yōu)化 GPU 資源的使用方式——無需專門的圖形編程知識(shí)——CUDA 在使 GPU 用于通用計(jì)算方面已經(jīng)走了很長(zhǎng)一段路。

在這里,我們將了解與 GPU 架構(gòu)相關(guān)的關(guān)鍵 CUDA 概念。

CUDA 計(jì)算層次結(jié)構(gòu)

CUDA 中的處理資源旨在幫助優(yōu)化 GPU 用例的性能。層次結(jié)構(gòu)的三個(gè)基本組件是線程、線程塊和內(nèi)核網(wǎng)格。

線程

線程——或 CUDA 核心——是一種并行處理器,可在 Nvidia GPU 中計(jì)算浮點(diǎn)數(shù)學(xué)運(yùn)算。GPU 處理的所有數(shù)據(jù)都是通過 CUDA 內(nèi)核處理的。現(xiàn)代 GPU 有數(shù)百甚至數(shù)千個(gè) CUDA 內(nèi)核。每個(gè) CUDA 核心都有自己的內(nèi)存寄存器,其他線程無法使用。

雖然計(jì)算能力和 CUDA 核心之間的關(guān)系不是完全線性的,但一般來說——假設(shè)其他條件相同——GPU 擁有的 CUDA 核心越多,它的計(jì)算能力就越大。然而,這個(gè)一般想法有多種例外情況。例如,不同的 GPU 微架構(gòu)會(huì)影響性能并使 CUDA 內(nèi)核較少的 GPU 更強(qiáng)大

線程塊

顧名思義,線程塊(或 CUDA 塊)是一組 CUDA 核心(線程),可以串行或并行地一起執(zhí)行。核心的邏輯分組可實(shí)現(xiàn)更高效的數(shù)據(jù)映射。線程塊在每個(gè)塊的基礎(chǔ)上共享內(nèi)存。當(dāng)前的 CUDA 架構(gòu)將每個(gè)塊的線程數(shù)量限制為 1024。給定 CUDA 塊中的每個(gè)線程都可以訪問相同的共享內(nèi)存(更多關(guān)于下面不同類型的內(nèi)存)。

內(nèi)核網(wǎng)格

線程塊的下一層抽象是內(nèi)核網(wǎng)格。內(nèi)核網(wǎng)格是同一內(nèi)核上的線程塊分組。網(wǎng)格可用于并行執(zhí)行更大的計(jì)算(例如,那些需要超過 1024 個(gè)線程的計(jì)算),但是由于不同的線程塊不能使用相同的共享內(nèi)存,所以在塊級(jí)別發(fā)生的相同同步不會(huì)發(fā)生在網(wǎng)格 -等級(jí)。

CUDA 內(nèi)存層次結(jié)構(gòu)

與計(jì)算資源一樣,內(nèi)存分配遵循 CUDA 中的特定層次結(jié)構(gòu)。雖然 CUDA 編譯器自動(dòng)處理內(nèi)存分配,但 CUDA 開發(fā)人員可以直接優(yōu)化內(nèi)存使用。以下是了解 CUDA 內(nèi)存層次結(jié)構(gòu)的關(guān)鍵概念。

寄存器

寄存器是分配給各個(gè)線程(CUDA 核心)的內(nèi)存。因?yàn)榧拇嫫鞔嬖谟凇捌稀眱?nèi)存中并且專用于各個(gè)線程,所以存儲(chǔ)在寄存器中的數(shù)據(jù)可以比任何其他數(shù)據(jù)處理得更快。寄存器中的內(nèi)存分配是一個(gè)復(fù)雜的過程,由編譯器處理,而不是由 CUDA 開發(fā)人員編寫的軟件控制。

只讀存儲(chǔ)器

只讀 (RO) 是 GPU 流式多處理器上的片上存儲(chǔ)器。它用于特定任務(wù),例如可以使用 CUDA 紋理函數(shù)訪問的紋理內(nèi)存。在許多情況下,從只讀內(nèi)存中獲取數(shù)據(jù)比使用全局內(nèi)存更快、更高效。

L1緩存/共享內(nèi)存

第 1 層 (L1) 緩存和共享內(nèi)存是在線程塊(CUDA 塊)內(nèi)共享的片上內(nèi)存。因?yàn)橐患?jí)緩存和共享內(nèi)存存在于芯片上,所以它比二級(jí)緩存和全局內(nèi)存都快。一級(jí)緩存和共享內(nèi)存的根本區(qū)別在于:共享內(nèi)存的使用是通過軟件控制的,而一級(jí)緩存是由硬件控制的。

二級(jí)緩存

所有 CUDA 塊中的所有線程都可以訪問第 2 層緩存。L2緩存存儲(chǔ)全局和本地內(nèi)存。從 L2 緩存中檢索數(shù)據(jù)比從全局內(nèi)存中檢索數(shù)據(jù)更快。

全局內(nèi)存

全局內(nèi)存是駐留在設(shè)備 DRAM 中的內(nèi)存。使用 CPU 類比,全局內(nèi)存可與 RAM 相提并論。從全局內(nèi)存中獲取數(shù)據(jù)本質(zhì)上比從 L2 緩存中獲取數(shù)據(jù)要慢。

Nvidia GPU 架構(gòu)簡(jiǎn)史

雖然近年來 Nvidia GPU 確實(shí)更頻繁地成為新聞,但它們絕不是新的。事實(shí)上,多年來,Nvidia GPU 已經(jīng)進(jìn)行了多次迭代,GPU 架構(gòu)也取得了進(jìn)步。因此,讓我們回顧一下最近的歷史,了解 GPU 是如何隨著時(shí)間的推移而發(fā)展的。我們將通過探索自 2000 年以來發(fā)布的每個(gè)流行的 Nvidia GPU 微體系結(jié)構(gòu)來做到這一點(diǎn)。

開爾文

Kelvin 于 2001 年發(fā)布,是 Nvidia 千禧年的第一個(gè)新 GPU 微架構(gòu)。最初的 Xbox 游戲機(jī)使用了具有開爾文微架構(gòu)的 NV2A GPU。GeForce 3 和 GeForce 4 系列 GPU 是使用這種微架構(gòu)發(fā)布的。

朗肯

Rankine 是 2003 年發(fā)布的 Kelvin 的后續(xù)產(chǎn)品,用于 Nvidia GPU 的 GeForce 5 系列。Rankine 支持頂點(diǎn)和片段程序,并將 VRAM 大小增加到 256MB。

居里

GeForce 6 和 7 系列 GPU 使用的微架構(gòu) Curie 于 2004 年作為 Rankine 的繼任者發(fā)布。Curie 將顯存量翻了一番,達(dá)到 512MB,是第一代支持 PureVideo 視頻解碼的 Nvidia GPU。

特斯拉

2006 年發(fā)布的 Tesla GPU 微架構(gòu)作為 Curie 的繼任者,為 Nvidia 的 GPU 產(chǎn)品線引入了幾個(gè)重要的變化。除了作為 GeForce 8、9、100、200 和 300 系列 GPU 使用的架構(gòu)之外,Tesla 還被為圖形處理以外的用例設(shè)計(jì)的 Quadro 系列 GPU 使用。

令人困惑的是,Tesla 既是 GPU 微架構(gòu)的名稱,也是 Nvidia GPU 的品牌。2020 年,Nvidia 決定停止使用特斯拉名稱,以免與流行的電動(dòng)汽車品牌混淆。

費(fèi)米

Tesla 的繼任者 Fermi 于 2010 年發(fā)布。Fermi 引入了許多增強(qiáng)功能,包括:

  • 支持 512 個(gè) CUDA 內(nèi)核
  • 64KB RAM 和分區(qū) L1 緩存/共享內(nèi)存的能力
  • 支持糾錯(cuò)碼 (ECC)

開普勒

Kepler GPU 微架構(gòu)作為 Fermi 2012 的繼任者發(fā)布。對(duì) Fermi 的主要改進(jìn)是:

  • 一種稱為 SMX 的新型流式多處理器架構(gòu)
  • 支持 TXAA(一種抗鋸齒方法)
  • CUDA 內(nèi)核增加到 1536 個(gè)
  • 更少的功耗
  • 通過 GPU boost 支持自動(dòng)超頻
  • 支持 GPUDirect,它允許 GPU——無論是在同一臺(tái)計(jì)算機(jī)上還是通過網(wǎng)絡(luò)相互訪問——無需訪問 CPU 即可進(jìn)行通信

麥克斯韋

2014 年發(fā)布的麥克斯韋是費(fèi)米的繼任者。根據(jù) Nvidia 的說法,第一代 Maxwell GPU 與 Fermi 相比具有以下優(yōu)勢(shì):

  • 由于與控制邏輯分區(qū)、時(shí)鐘門控、指令調(diào)度和工作負(fù)載平衡相關(guān)的增強(qiáng),更高效的多處理器
  • 每個(gè)流式多處理器上有 64KB 的專用共享內(nèi)存
  • 與 Fermi 使用的鎖定/解鎖范例相比,本機(jī)共享內(nèi)存原子操作提供了性能改進(jìn)
  • 動(dòng)態(tài)并行支持

帕斯卡

Pascal 于 2016 年接替 Maxwell。這種 Nvidia GPU 微架構(gòu)提供了對(duì) Maxwell 的改進(jìn),例如:

  • 支持 NVLink 通信,與 PCIe 相比具有顯著的速度優(yōu)勢(shì)
  • 高帶寬內(nèi)存 2 (HBM2) - 一種 4096 位內(nèi)存總線,提供 720 GB 的內(nèi)存帶寬
  • 計(jì)算搶占
  • 動(dòng)態(tài)負(fù)載平衡以優(yōu)化 GPU 資源利用率

沃爾特

Volta 是 2017 年發(fā)布的一種有點(diǎn)獨(dú)特的微架構(gòu)迭代。雖然以前的大多數(shù)微架構(gòu)都用于消費(fèi)類 GPU,但 Volta GPU 嚴(yán)格針對(duì)專業(yè)應(yīng)用進(jìn)行銷售。Volta 也是第一個(gè)使用 Tensor Core 的微架構(gòu)。

張量核心是一種新型的處理核心,可以執(zhí)行專門的數(shù)學(xué)計(jì)算。具體來說,Tensor Cores 執(zhí)行支持 AI 和深度學(xué)習(xí)用例的矩陣運(yùn)算。

圖靈

Turing 于 2018 年發(fā)布,除了支持 Tensor Cores 外,還包括許多面向消費(fèi)者的 GPU。Turing 是 Nvidia 廣受歡迎的 Quadro RTX 和 GeForce RTX 系列 GPU 使用的微架構(gòu)。這些 GPU 支持實(shí)時(shí)光線追蹤(又名 RTX),這對(duì)于虛擬現(xiàn)實(shí) (VR) 等計(jì)算量大的應(yīng)用程序至關(guān)重要。

安培

Ampere 微架構(gòu)才剛剛開始投放市場(chǎng)。Ampere 旨在進(jìn)一步支持高性能計(jì)算 (HPC) 和人工智能用例。Ampere 的增強(qiáng)功能包括第 3 代 NVLink 和 Tensor 核心、結(jié)構(gòu)稀疏性(將不需要的參數(shù)轉(zhuǎn)換為零以啟用 AI 模型訓(xùn)練)、第 2 代光線追蹤核心、多實(shí)例 GPU (MIG) 以實(shí)現(xiàn) A100 GPU 在邏輯上的分區(qū)隔離且安全的 GPU 實(shí)例。

最后的想法

我們希望您喜歡我們對(duì) GPU 架構(gòu)及其演變過程的概述。在Cherry Servers,我們對(duì) HPC 的未來和下一代 GPU 將支持的用例充滿熱情。我們是裸機(jī)云的行業(yè)領(lǐng)導(dǎo)者,也是幫助企業(yè)充分利用其計(jì)算資源的專家。

文章鏈接: http://m.qzkangyuan.com/14180.html

文章標(biāo)題:您需要了解的有關(guān)GPU架構(gòu)及其發(fā)展歷程的一切信息

文章版權(quán):夢(mèng)飛科技所發(fā)布的內(nèi)容,部分為原創(chuàng)文章,轉(zhuǎn)載請(qǐng)注明來源,網(wǎng)絡(luò)轉(zhuǎn)載文章如有侵權(quán)請(qǐng)聯(lián)系我們!

聲明:本站所有文章,如無特殊說明或標(biāo)注,均為本站原創(chuàng)發(fā)布。任何個(gè)人或組織,在未征得本站同意時(shí),禁止復(fù)制、盜用、采集、發(fā)布本站內(nèi)容到任何網(wǎng)站、書籍等各類媒體平臺(tái)。如若本站內(nèi)容侵犯了原著者的合法權(quán)益,可聯(lián)系我們進(jìn)行處理。

給TA打賞
共{{data.count}}人
人已打賞
IDC云庫(kù)

面向開發(fā)人員的5個(gè)最佳加密貨幣API

2022-12-12 11:33:07

IDC云庫(kù)

什么是云計(jì)算中的虛擬化?

2022-12-12 11:57:18

0 條回復(fù) A文章作者 M管理員
    暫無討論,說說你的看法吧
?
個(gè)人中心
購(gòu)物車
優(yōu)惠劵
今日簽到
有新私信 私信列表
搜索
主站蜘蛛池模板: 武功县| 延吉市| 江门市| 铜鼓县| 礼泉县| 长白| 石河子市| 水富县| 保定市| 张北县| 和龙市| 阿瓦提县| 贺州市| 宁国市| 宁安市| 灵寿县| 七台河市| 玉林市| 吉林市| 玉田县| 鄂伦春自治旗| 雷波县| 砚山县| 句容市| 南康市| 抚宁县| 河池市| 万山特区| 中超| 长乐市| 门源| 新和县| 拜城县| 焦作市| 南雄市| 民县| 溧阳市| 黄山市| 桃园县| 扬中市| 宁陵县|