英偉達(dá)迎來了最強(qiáng)的競爭對手

[ 熱門新聞 ] 時鐘、GPU,人工智能 2020-03-31 09:39:09

?????? 近年來，在數(shù)據(jù)中心的游戲和人工智能的推動下，英偉達(dá)(NVDA)實現(xiàn)了非常穩(wěn)健的增長。

?????? 但在去年，該公司遇到了瓶頸。數(shù)據(jù)顯示，過去四個季度(按順序，英偉達(dá)的)收入同比下降分別24%、31%、17%和5%。今年一季度，英偉達(dá)的營收與兩年前基本持平。這使得他們不能再重現(xiàn)2016年至2018年股市上漲至溢價倍數(shù)的那種增長。

?????? 然而隨著英特爾(Intel)進(jìn)入英偉達(dá)的大本營，該公司將面臨越來越激烈的競爭，情況將變得更加復(fù)雜。這就是我想在這里進(jìn)一步探討的話題。

?????? 在未來兩年內(nèi)，英特爾將打造一個獨(dú)立GPU產(chǎn)品組合，從入門級的移動設(shè)備一直到百億億級的超級計算機(jī)。簡而言之，這將給英偉達(dá)的市場份額帶來壓力，該公司可能不得不采取更激進(jìn)的定價策略，這也將給其毛利率帶來壓力。

?????? 雖然這需要很長一段時間，但英偉達(dá)面臨的威脅是切實存在的，因為英特爾將為市場帶來一些有趣的創(chuàng)新。

Intel Xe架構(gòu)和DG1

?????? 自2017年英特爾從AMD公司聘請Raja Koduri，并為其首款獨(dú)立GPU設(shè)定2020年時間表以來，人們就知道英特爾有意進(jìn)入（高端）獨(dú)立顯卡領(lǐng)域。隨著這次發(fā)布會的臨近，更多的信息浮出水面，英特爾的戰(zhàn)略也變得更加清晰。

?????? 首先，英特爾有一個循序漸進(jìn)的計劃，入門級的移動GPU(稱為DG1，這里的移動，應(yīng)該指代的是筆記本)將是其第一款產(chǎn)品，今年夏天開始發(fā)貨)開始，并與7nm的Ponte Vecchio一起推廣到數(shù)據(jù)中心。

?????? 這些 GPU將基于Xe架構(gòu)，以前稱為Gen12。該架構(gòu)將有三種衍生產(chǎn)品:Xe LP (DG1)、Xe HP和Xe HPC (Ponte Vecchio)。因此，英特爾的桌面顯卡預(yù)計將在DG1和Ponte Vecchio之間的某個時間點(diǎn)推出，可能在2021年初。

?????? DG1給你的體驗感，其實就像把英特爾在Tiger Lake的集成顯卡升級到適當(dāng)?shù)莫?dú)立顯卡，因這時候你就不必與CPU共享功耗預(yù)算，而且它可能有更高的功耗預(yù)算，這將產(chǎn)生更高的時鐘速度。因此，雖然性能應(yīng)該得到改進(jìn)，但這不會帶來任何奇跡。

盡管如此，DG1仍有兩點(diǎn)值得關(guān)注:

?????? 英特爾稱，Gen11(在Ice Lake)的游戲性能是Gen9的兩倍，執(zhí)行單位（execution units）則增加了2.7倍，工藝也從14納米進(jìn)階到10納米。對于Gen12(Tiger Lake集成顯卡)，英特爾再次聲稱性能提高了2倍，盡管執(zhí)行單元的數(shù)量只增加了1.5倍，但進(jìn)程節(jié)點(diǎn)從10nm演進(jìn)到10nm+(這降低了大約10%的功耗)。

?????? 考慮到英特爾在(移動)CPU方面的市場份額，基本上每個DG1都將配備集成顯卡的Intel CPU。一個誘人的可能性是合并兩個顯卡引擎(多GPU)。這將使DG1的性能翻倍，使其性能水平需要AMD和英偉達(dá)提供更多的硅。

?????? 第一個要點(diǎn)表明，英特爾已經(jīng)通過Xe/Gen12對Gen架構(gòu)進(jìn)行了顯著的改進(jìn)。在基本相同的進(jìn)程節(jié)點(diǎn)上，僅增加1.5倍的執(zhí)行單元，就實現(xiàn)了2倍的增長，這表明英特爾在諸如每時鐘性能、時鐘速度和每瓦性能等方面取得了顯著的進(jìn)步。

?????? 一些泄露的信息表明，Gen12對其架構(gòu)進(jìn)行了重大的修改。這將重拾人們對英特爾在架構(gòu)方面競爭力的所有期望，因為這只有在以后的回顧中才能恰當(dāng)?shù)亟沂境鰜怼５珡耐庥^上看，Xe將是一個完全值得獨(dú)立化（discrete-worthy）的架構(gòu)。

?????? 第二點(diǎn)是另一個顛覆性的變化，移動領(lǐng)域的競爭優(yōu)勢，如果它成為現(xiàn)實的話。

?????? 簡單起見，我們假設(shè)英偉達(dá)看到了Tiger Lake的集成顯卡性能，并希望自己即將推出的7nm移動GPU的性能提高2倍。先不考慮架構(gòu)上的差異，這意味著Nvidia將不得不使用相當(dāng)于192個Intel執(zhí)行單元的CUDA/Ampere硬件(相當(dāng)于Tiger Lake的96EU的2倍)來設(shè)計硅片。

?????? 這對于Nvidia來說沒有問題，因為在這個例子中GPU，需要大約4 TFLOPS(少于RTX 2060)的運(yùn)算能力。

?????? 雖然這一切都很好，但實際上在游戲過程中閑置著約2TFLOPS的計算能力——來自CPU的集成顯卡。現(xiàn)在，如果人們猜測英特爾將使集成和獨(dú)立顯卡在游戲工作負(fù)載中一起運(yùn)行（這是未經(jīng)證實的），現(xiàn)在，如果英特爾將使集成顯卡和獨(dú)立顯卡在游戲負(fù)載下同時運(yùn)行(這一點(diǎn)還沒有得到證實)，那么英特爾可以用2 TFLOPS獨(dú)立顯卡(因為其他2 TFLOPS顯卡將來自集成顯卡)與4 TFLOPS Nvidia顯卡競爭，但只用其一半的硅。這給了英特爾巨大的成本優(yōu)勢。

?????? 這一優(yōu)勢在中檔市場尤其明顯，因為集成顯卡的2 TFLOPS在高端市場的剩余比例將會降低。盡管如此，利用集成顯卡（每個Intel CPU都有）將6 TFLOPS卡轉(zhuǎn)換為8 TFLOPS GPU仍將帶來33％的成本或性能優(yōu)勢。

?????? 我們得看看現(xiàn)實是否會像理論上聽起來的那樣好（或者說根本不會）。英特爾將于3月份在GDC發(fā)布更多關(guān)于Xe的信息。

?????? 但是，最有前途的創(chuàng)新在于Ponte Vecchio。

Ponte Vecchio:小芯片GPU架構(gòu)

?????? 11月，英特爾推出了Ponte Vecchio。關(guān)于這個公告有很多報道，所以我只會報道最相關(guān)的部分。簡而言之，Ponte Vecchio完全拋棄了所有傳統(tǒng)GPU架構(gòu)和設(shè)計的常見概念，就像AMD在CPU中對Naples和Rome做的一樣。

?????? 一些最值得注意的細(xì)節(jié)(如果這些術(shù)語沒有說明什么，請不要擔(dān)心，我將在下面解釋其重要性):

小芯片架構(gòu)（帶有Foveros die堆疊）
數(shù)據(jù)并行矩陣引擎：用于AI的INT8，BF16，F(xiàn)P16和高吞吐量FP64
SIMT（GPU）和SIMD（CPU）單元都能提高靈活性（從而提高性能）
具有高帶寬Rambo緩存的Xe內(nèi)存結(jié)構(gòu)，可在所有工作負(fù)載期間保持高利用率
HBM與EMIB“膠水封裝”
基于CXL(PCIe 5.0)的Xe在獨(dú)立的橋式Vecchio GPU之間連接

?????? 英特爾以7nm進(jìn)程節(jié)點(diǎn)為主導(dǎo)的產(chǎn)品，將于2021年第4季度推出。

?????? 這都是什么意思？英特爾會推出第一個7nm的GPU產(chǎn)品，并在2022年推出7nm的 Xeons和Core的“cash cow”處理器。我們要充分強(qiáng)調(diào)這一點(diǎn)是很困難的，因為從字面上看，英特爾在GPU領(lǐng)域的野心再清楚不過了。首先，這意味著英特爾將從一個在10/7nm工藝上Nvidia的追隨者，變成在7/5nm工藝上的領(lǐng)導(dǎo)者(在GPU領(lǐng)域)。

（鑒于Nvidia的7nm芯片尚未發(fā)布，因此他們不太可能在2021年擁有5nm GPU。）

?????? 這怎么可能？Ponte Vecchio由十六個小芯片（chiplets）組成。英特爾尚未透露每個小芯片的裸片尺寸，但可能約為100mm2，因為這是新工藝技術(shù)的常見裸片尺寸。這樣可以估算出大約需要1600mm2運(yùn)算硅，其中不包括HBM和Rambo Cache芯片。

?????? 因此，英特爾不會僅僅以一個小型GPU來引領(lǐng)制程，也不會僅僅使用其差異化的（EMIB和Foveros 2.5/3D）封裝技術(shù)通過組合多個芯片來創(chuàng)建一個大型GPU，而是會創(chuàng)建一個幾乎不可能設(shè)計成一個monolithic dies的GPU: monolithic dies受到所謂reticle尺寸限制(~800mm2)。

?????? 因此，英偉達(dá)可能在7nm工藝上擁有大約800mm2的旗艦產(chǎn)品，以取代Volta，而英特爾將在進(jìn)程節(jié)點(diǎn)上擁有大約1600mm2的旗艦產(chǎn)品，因此它的性能可能是英偉達(dá)所提供產(chǎn)品的4倍。

?????? 綜上所述，通過使用一個小裸片，能讓Ponte Vecchio成為新工藝技術(shù)的主導(dǎo)產(chǎn)品。然后，通過將這些小芯片組合在一起，英特爾將能夠制造出一個裸片尺寸（和相應(yīng)的性能）遠(yuǎn)大于單片芯片的GPU。在新工藝引入的早期階段，這沒有任何良率挑戰(zhàn)，也沒有大型monolithic dies的相應(yīng)高成本。因此，這種小芯片方法的上市時間（與采用新工藝節(jié)點(diǎn)的大型單片GPU相比）至少有1-2年的優(yōu)勢。

?????? 基于此，英特爾超越了單裸片芯片的尺寸，擁有工藝優(yōu)勢，上市時間快，獲得巨大的性能領(lǐng)先，這聽起來很像AMD在Rome做的事情，因為他們就是這樣干的。?(請注意，英特爾早在十多年前就開始致力于EMIB和Foveros的研發(fā)，因此英特爾絕不是在模仿AMD，英特爾可以說是第一個朝這個方向努力的。)

?????? 不過，我們必須看看英特爾是否可以利用自己的優(yōu)勢來在服務(wù)器方面獲得比AMD更高，更快的市場份額。考慮到整個CUDA生態(tài)系統(tǒng)，這就是為什么英特爾現(xiàn)在已經(jīng)在談?wù)撍砸痖_發(fā)人員的興趣，以及為什么它創(chuàng)建了自己的oneAPI軟件開發(fā)工具，其中包括一個來自CUDA的轉(zhuǎn)換工具。

游戲GPU的前景

?????? 英特爾正在全力開發(fā)一流的GPU產(chǎn)品，其多項差異化功能對英偉達(dá)在該領(lǐng)域的競爭力和領(lǐng)導(dǎo)地位構(gòu)成了真正的威脅。

?????? 在低端方面，我們所知道的關(guān)于DG1的一些細(xì)節(jié)（因此，通常是Xe架構(gòu)）表明，它在每瓦性能和其他指標(biāo)方面都比Gen11有了很大的提升。此外，還有一個非常有趣的選擇，即英特爾可以讓其獨(dú)立和集成顯卡在游戲中協(xié)同工作，這可能為筆記本電腦帶來可觀的性能和成本效益。

?????? 在數(shù)據(jù)中心的高端，Ponte Vecchio由一個獨(dú)特的小芯片架構(gòu)組成，總共有16個計算小芯片。芯片技術(shù)的發(fā)展將意味著英特爾將在圖形領(lǐng)域成為第一個擁有7/5nm節(jié)點(diǎn)技術(shù)的公司，其成本和芯片尺寸都將遠(yuǎn)遠(yuǎn)超過任何單片芯片。

?????? 當(dāng)然，英偉達(dá)有可能正在研究一種類似的方法，正如它在研究中所顯示的那樣。但到了這種反應(yīng)出現(xiàn)的時候，英特爾可能已經(jīng)取得了顯著的增長，而且它將再次為市場提供公平的競爭環(huán)境。）

?????? 英特爾將會在桌面游戲的高端平臺上帶來什么(也許會利用一些Ponte Vecchio的功能)？至這些將是什么節(jié)點(diǎn)的產(chǎn)品？具體時間是什么時候？以上問題都讓人高度關(guān)注，一些傳言說2022年在TSMC 7nm上。但現(xiàn)在討論這些還沒什么意義。

???????根據(jù)常識(假設(shè)英特爾按照其計劃執(zhí)行)，我認(rèn)為Xe HP最可能在2021年上半年發(fā)布，這意味著Nvidia很可能在7nm制程上保持領(lǐng)先，而英特爾則開始其多年努力，成為公認(rèn)的GPU巨頭。

?????? 如果英特爾能在2022年推出一款7nm獨(dú)立游戲GPU(根據(jù)一個老傳言，代號為Jupiter Sound)，那么它將有機(jī)會與Nvidia的5nm產(chǎn)品線一較高下。

關(guān)于人工智能

?????? 在最近的一篇文章中，我將數(shù)據(jù)中心中的人工智能描述為這十年英特爾的主要增長驅(qū)動力之一。考慮到英偉達(dá)在同一領(lǐng)域競爭，這些有利因素也應(yīng)該或多或少地適用于英偉達(dá)。

?????? 不過，還是要提醒大家注意。正如我在那篇文章中所描述的，隨著最近收購Habana，以及2021年P(guān)onte Vecchio的加入，英特爾將擁有不少于三條產(chǎn)品線來挑戰(zhàn)Nvidia在價值30億美元以上的數(shù)據(jù)中心人工智能、深度學(xué)習(xí)訓(xùn)練芯片和太空領(lǐng)域的壟斷地位。如果這個市場增長到60億美元，但是Nvidia失去了一半的市場份額，它將一事無成(在這個例子中，英特爾增加了自己30億美元的業(yè)務(wù))。

?????? 同樣，在推理芯片方面，英偉達(dá)甚至沒有一個真正有意義的開始。我還注意到，推理芯片的一方是（預(yù)計將是）未來大部分資金將流向的地方。重新設(shè)計的GPU是否足以獲得優(yōu)勢，或者Nvidia是否提出了其他建議，將不得不拭目以待。

?????? 進(jìn)一步來看，在自動駕駛方面，幾乎沒有跡象表明英偉達(dá)有動力大量采用其驅(qū)動套件。

?????? 因此，我不清楚英偉達(dá)的高估值到底來自何方，也不清楚在英偉達(dá)將面臨的競爭和基本上沒有增長的情況下（因為數(shù)據(jù)中心的增長故事也很快變得平淡），英偉達(dá)的高估值是如何證明的。

風(fēng)險與挑戰(zhàn)

?????? 但我們必須承認(rèn)，英特爾是市場上一個新的、技術(shù)上未經(jīng)驗證的玩家：盡管英特爾在圖形IP開發(fā)方面有著悠久的歷史，但迄今為止，他們在這一領(lǐng)域的表現(xiàn)僅限于（相當(dāng)?shù)投说模┘娠@卡。

?????? 我已經(jīng)描述了英特爾將帶給市場的一項獨(dú)特的技術(shù)，用新工藝技術(shù)將更小的小芯片封裝，以更快地將GPU推向市場，但是英偉達(dá)可能會提出一個類似的多GPU解決方案，使競爭更加公平。

?????? 雖然我認(rèn)為英特爾在英偉達(dá)所有業(yè)務(wù)中提供極具競爭力的產(chǎn)品的前景很好，但該公司必須占據(jù)相當(dāng)大的市場份額，才能對英偉達(dá)的收益產(chǎn)生顯著影響。這將是一個持續(xù)很久的故事，通過多次產(chǎn)品發(fā)布來獲得動力。

?????? 來到人工智能方面，我認(rèn)為推理芯片是更重要、更大的市場（與英偉達(dá)目前占據(jù)主導(dǎo)地位的訓(xùn)練芯片相比），但我可能低估了英偉達(dá)利用其在訓(xùn)練芯片方面的投資可能帶來的勢頭：GPU已經(jīng)在那里使用多年，而專用的人工智能芯片（如Habana）則相對較新。正如我在一篇有關(guān)英特爾的文章中所概述的，人工智能很可能會成為一個很大的細(xì)分市場。

?????? 這可能不是一場零和（zero-sum）游戲：即使英特爾發(fā)展壯大，整個市場仍有可能增長。換句話說，我可能低估了英偉達(dá)的增長機(jī)會，即使競爭更加激烈。但是英偉達(dá)在其核心顯卡業(yè)務(wù)上將面臨很多風(fēng)險。但幸好的是，英特爾自是這個市場上的新挑戰(zhàn)者。

?????? 一個類似的例子是Xilinx（XLNX）與英特爾在FPGAs上的競爭。盡管威脅依然迫在眉睫，但在過去4年里，英特爾迄今未能從Xilinx手中奪走多少市場份額。與英偉達(dá)類似，Xilinx近年來的股票表現(xiàn)是由一般市場動態(tài)而非競爭環(huán)境決定的。

版權(quán)聲明：本網(wǎng)站轉(zhuǎn)載的所有的文章、圖片等資料的版權(quán)歸版權(quán)所有人所有，本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如果本網(wǎng)所選內(nèi)容的文章作者及編輯認(rèn)為其作品不宜公開自由傳播，或不應(yīng)無償使用，請及時聯(lián)系小編進(jìn)行刪除，避免給雙方造成不必要的經(jīng)濟(jì)損失。