文/顏萌 李林(編譯)
量子位 出品 | 公眾號(hào) QbitAI
所到之處,英偉達(dá)CEO黃仁勛例行強(qiáng)調(diào):我們是一家AI公司。
誰又能說不是?
市值兩年上漲7倍,芯片供不應(yīng)求,屢戰(zhàn)英特爾,堅(jiān)持懟谷歌,是當(dāng)前AI大紅大紫中的實(shí)力玩家,也是AI大潮中最閃亮耀眼的明星縮影。
創(chuàng)立24年來,從游戲芯片供應(yīng)商,到AI芯片壟斷者,英偉達(dá)儼然歷史欽定。
不過,回溯英偉達(dá)的風(fēng)云際會(huì),歷史進(jìn)程縱然功不可沒,個(gè)人奮斗更是不容忽視——沒有瀕臨破產(chǎn)時(shí)的豪賭,沒有在CUDA上百億美元的押注,又怎會(huì)有如今風(fēng)光無限的英偉達(dá)和黃教主。
《紐約時(shí)報(bào)》記者Don Clark,決定揭秘英偉達(dá)“奇幻漂流”背后的關(guān)鍵時(shí)刻。
這不止是一個(gè)豪賭出奇跡的案例。
英偉達(dá)轉(zhuǎn)折點(diǎn)
轉(zhuǎn)折點(diǎn)是“CUDA”。
CUDA,英偉達(dá)的并行計(jì)算平臺(tái)和編程模型。在它出現(xiàn)之前,英偉達(dá)的主要芯片GPU只是一個(gè)負(fù)責(zé)在屏幕上繪制圖像的“圖形處理單元”。
但CUDA的出現(xiàn),讓GPU擁有解決復(fù)雜計(jì)算問題的能力,可以幫助客戶為不同的任務(wù)對(duì)處理器進(jìn)行編程。
比如遠(yuǎn)在波蘭的圖像識(shí)別公司CTA.ai,可以用它幫助篩查腸道圖像——僅需要病患咽下一個(gè)藥丸大小的傳感器,就能讓醫(yī)生檢測(cè)腸道功能紊亂的速度能夠比視頻檢查快速70%,不僅檢查成本降低,而且診斷結(jié)果更精確。
對(duì)于類似的GPU應(yīng)用,CTA.ai并不孤單。
GPU也正出現(xiàn)在越來越多出現(xiàn)在新興設(shè)備上,比如無人車、機(jī)器人、自動(dòng)駕駛汽車、服務(wù)器、超級(jí)計(jì)算機(jī)和虛擬現(xiàn)實(shí)設(shè)備。
它幾乎是AI市場(chǎng)最為核心的需求品類,因?yàn)楫?dāng)前只有英偉達(dá)的GPU,才能快速處理各種復(fù)雜的人工智能任務(wù),如圖像識(shí)別、臉部識(shí)別和語音識(shí)別,甚至深度學(xué)習(xí)加速、氣候建模,石油勘探都必須標(biāo)配GPU。、
實(shí)際上,這樣的應(yīng)用,遠(yuǎn)超老黃的最初預(yù)期。
黃仁勛生于臺(tái)灣,在俄勒岡州立大學(xué)和斯坦福大學(xué)學(xué)習(xí)電子工程,后來在硅谷的芯片制造商工作。
1993年,他和Chris Malachowsky、Curtis Priem一起創(chuàng)辦了英偉達(dá),最初,他們給游戲PC提供視覺特效,幫它們和那些專業(yè)的電子游戲機(jī)競(jìng)爭。
Malachowsky說,公司最初的產(chǎn)品并不成功,而圖形市場(chǎng)對(duì)手眾多。后來,英偉達(dá)重組了它的產(chǎn)品和戰(zhàn)略,逐漸與對(duì)手拉開距離,最終成就了在游戲PC中GPU加速器卡的絕對(duì)的領(lǐng)導(dǎo)地位。
GPU生成三角形以形成框架結(jié)構(gòu),模擬對(duì)象,為顯示屏上的像素賦予顏色。要做到這一點(diǎn),必須并行執(zhí)行許多簡單的指令,這就是圖形芯片隨著微型處理器數(shù)量的增加,性能優(yōu)化的原因。
如何最大化利用這些微處理器的并行計(jì)算能力,始終是英偉達(dá)核心關(guān)心的問題。
也是CUDA誕生的原因。
實(shí)習(xí)生杰作
2004年,斯坦福大學(xué)博士生Ian Buck進(jìn)入英偉達(dá)實(shí)習(xí),這是CUDA研發(fā)的開端。當(dāng)時(shí),Buck參與過一項(xiàng)編程競(jìng)賽,任務(wù)是讓能更容易地管理GPU的眾多計(jì)算引擎。
△ Ian Buck 來源:heise.de CUDA的核心設(shè)計(jì)理念就是計(jì)算機(jī)中的線程。與傳統(tǒng)CPU中的4、8和16個(gè)線程不同,GPU中的線程可以多達(dá)幾萬個(gè)。
Buck表示,看起來這些線程的管理是一件十分復(fù)雜的事情。但實(shí)際上,編程人員主要的困難在于如何發(fā)揮這些線程的優(yōu)勢(shì),而不是管理這些線程。早期,CUDA的性能主要依賴編程人員人工發(fā)現(xiàn)代碼中可并行計(jì)算的部分。
目前,隨著CUDA庫的發(fā)展,這方面的工作開始越來越自動(dòng)化。CUDA團(tuán)隊(duì)已經(jīng)開發(fā)了很多石油、天然氣和國防等相關(guān)產(chǎn)業(yè)所使用的科學(xué)計(jì)算方面的庫。最終,2012年發(fā)布的Titan超級(jí)計(jì)算機(jī)使用了18688個(gè)NVIDIA Tesla K20 GPU作為協(xié)處理器,標(biāo)志著GPGPU在高性能計(jì)算方面的成功推廣和應(yīng)用。從2011年開始,Top 500的超級(jí)計(jì)算機(jī)中至少有50臺(tái)會(huì)使用GPU進(jìn)行加速。而這些機(jī)器基本上也都出現(xiàn)在Green 500(全球節(jié)能超級(jí)計(jì)算機(jī)榜單)的列表中。
Buck曾表示,在CUDA的應(yīng)用當(dāng)中,最讓其影響深刻的就是,乳腺癌檢測(cè)和診斷的系統(tǒng)。與傳統(tǒng)方法相比,采用支持CUDA編程的Tesla GPU后,醫(yī)生能夠更早、更精確地發(fā)現(xiàn)乳腺癌。而美國國家癌癥研究所數(shù)據(jù)顯示,基于CUDA的系統(tǒng)在運(yùn)行蛋白質(zhì)配體運(yùn)算(用于研發(fā)治療癌癥和老年癡呆癥的新藥)時(shí)只需要原來1/12的時(shí)間。
此后,CUDA開始受到越來越多的關(guān)注。
Buck還介紹說,他之前和來自很多工業(yè)界的人士交流發(fā)現(xiàn),他們寧愿犧牲性能,也不愿接受一門新的語言。為了能夠給相關(guān)編程人員提供很好的入門體驗(yàn),從而便于CUDA的推廣,CUDA采用了已經(jīng)流行的C語言作為基礎(chǔ)。
這樣,編程人員就不需要去學(xué)習(xí)特定的顯示芯片的指令或是特殊的結(jié)構(gòu),即可編寫GPU上運(yùn)行的程序,這毫無疑問促進(jìn)了CUDA在程序員之間的流行。
此外,英偉達(dá)當(dāng)年做出的一個(gè)決定也極為關(guān)鍵,F(xiàn)在已是英偉達(dá)負(fù)責(zé)加速計(jì)算的副總裁lan Buck回憶說,英偉達(dá)讓自家消費(fèi)級(jí)GPU和高端產(chǎn)品都支持CUDA。這就意味著只要研究人員、學(xué)生有筆記本電腦或者臺(tái)式機(jī),就能在學(xué)校實(shí)驗(yàn)室和宿舍里開發(fā)軟件。
英偉達(dá)還說服了許多大學(xué)開設(shè)課程,教學(xué)生用他們公司的最新編程技術(shù)。程序員們逐漸把GPU應(yīng)用于氣候建模、勘探石油和天然氣等很多領(lǐng)域。
2012年,GPU的強(qiáng)大能力和深度學(xué)習(xí)一起,震驚了學(xué)術(shù)界。當(dāng)時(shí),加拿大多倫多大學(xué)的Geoffrey Hinton帶著兩個(gè)學(xué)生,用GPU訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)拿下了ImageNet圖像識(shí)別大賽的冠軍。
Buck表示,在GPU出現(xiàn)之前,訓(xùn)練這樣一個(gè)系統(tǒng)可能需要整整一個(gè)學(xué)期。而有了這項(xiàng)技術(shù),研究人員現(xiàn)在可以在很短的時(shí)間內(nèi)完成這一過程。
“我無法想象要是沒有GPU該怎么做!彼固垢4髮W(xué)的副教授Silvio Savarese說。
而對(duì)于GPU和英偉達(dá)來說,最好的時(shí)間已經(jīng)來到。只是同樣讓人難以想象的是這場(chǎng)從無到有背后的押注。
百億美元押注
這絕對(duì)是一場(chǎng)賭上全部身家的押注。而最關(guān)鍵的拍板者是英偉達(dá)創(chuàng)始人:黃仁勛。
黃仁勛總被國內(nèi)網(wǎng)友稱為“老黃”,甚至被安上了“核武狂魔、兩彈元?jiǎng)住钡拿?hào),但本質(zhì)上,他有著像喬教主一樣嚴(yán)苛的個(gè)性、戰(zhàn)略上的直覺。
也有人習(xí)慣把他和喬布斯相提并論,除了個(gè)性和才能之外,他們同樣喜歡穿一身深色衣服,甚至同樣為公司建了一棟引人注目的大樓。當(dāng)然,改變英偉達(dá)命運(yùn)的CUDA,和改變蘋果命運(yùn)的iPhone,也有不少相似之處——至少它們都誕生在同一年,都堪稱孤膽押注。
當(dāng)時(shí)是,老黃宣布要通過一些列軟件開發(fā)和修改工作,讓GPU勝任各種任務(wù),不再只是負(fù)責(zé)在屏幕上繪制圖像。
但最大的問題是錢、錢、錢!他說:“成本對(duì)公司來說奇高無比。”
一旦項(xiàng)目啟動(dòng),每年砸到CUDA上的研發(fā)成本估算就有5億美元,而當(dāng)時(shí)公司全年的總收入才大約30億美元。也就是說,老黃把整個(gè)整個(gè)公司的1/6,押注在了和公司核心業(yè)務(wù)似乎沒什么關(guān)系的一個(gè)軟件平臺(tái)上。
最后來看,自CUDA推出以來,英偉達(dá)在將GPU轉(zhuǎn)化為更通用的計(jì)算工具上投入了將近100億美元。
說巧不巧,正當(dāng)黃仁勛大舉押注CUDA之時(shí),計(jì)算行業(yè)也正在發(fā)生廣泛變革,摩爾定律帶來的計(jì)算提升速度正在放緩,這也讓當(dāng)初借此統(tǒng)治芯片市場(chǎng)的英特爾,地位發(fā)生動(dòng)搖,即便諸多芯片設(shè)計(jì)公司試圖從無到有打造更專業(yè)芯片,并讓該類芯片與英特爾處理器一同運(yùn)行,利用芯片電路的微型化提供更多的好處。
但又怎擋得住英偉達(dá)的勢(shì)能優(yōu)勢(shì)。在英特爾和其他芯片廠商轉(zhuǎn)型途中,英偉達(dá)不需要從頭做起,只要重新定位已有的芯片,利用在CUDA項(xiàng)目中開發(fā)的芯片和軟件,就能逐漸打造出一個(gè)廣受程序員和企業(yè)歡迎的技術(shù)平臺(tái)。
現(xiàn)在,這樣的平臺(tái)已然展現(xiàn)在世人面前,但不意味著戰(zhàn)場(chǎng)就此風(fēng)平浪靜。
芯片戰(zhàn)爭還在繼續(xù)
英偉達(dá)的競(jìng)爭對(duì)手們說,在AI領(lǐng)域,芯片制造商之間的斗爭才剛開始。
首先是英特爾,這家傳統(tǒng)芯片巨頭在這場(chǎng)戰(zhàn)爭中不甘落后,接連重金收購了可編程芯片制造商Altera、專注于研究深度學(xué)習(xí)和機(jī)器視覺的其他創(chuàng)業(yè)公司、還有為汽車生產(chǎn)駕駛輔助設(shè)備的以色列公司Mobileye。
還有Google,其中最醒目的莫過于最近則發(fā)布的第二代TPU,這是該公司內(nèi)部開發(fā)的人工智能芯片,在它的助力下,谷歌在圍棋比賽中擊敗了世界冠軍柯潔。谷歌聲稱,這種芯片在某些應(yīng)用程序中比GPU有更明顯的優(yōu)勢(shì)。
當(dāng)然,諸如Wave Computing之類的初創(chuàng)公司也這么說。
但擊敗英偉達(dá)并不容易。
一個(gè)很重要的原因是,這家公司有來自游戲市場(chǎng)的,源源不斷的收入,他們能投入到芯片研發(fā)上,比大多數(shù)人工智能競(jìng)爭對(duì)手都要多。
比如說前不久發(fā)布的Volta架構(gòu),就投入了30億美元研發(fā)費(fèi)用,創(chuàng)下了行業(yè)記錄。
英偉達(dá)表示,目前有50多萬開發(fā)人員使用GPU。此外,這家公司還打算開源一種芯片架構(gòu),免費(fèi)供其他芯片廠商用在燈泡、攝像頭等低端深度學(xué)習(xí)應(yīng)用上,借此在這些自己不打算涉足的領(lǐng)域,擴(kuò)大粉絲基礎(chǔ)。
老黃說,“人工智能終將影響到世界上的每一家公司,但我們不會(huì)什么都做。”
不了解黃仁勛的人以為這是謙虛,熟悉他的人就知道,這是殺伐征戰(zhàn)24年后,老黃敢賭敢贏背后的專注力。