123,123,123

飛象網(wǎng)訊（魏德齡/文）Goya（戈雅）、Gaudi（高迪），Habana用兩款以西班牙藝術(shù)家名字命名的人工智能專用處理器向媒體展示了其強大的AI性能、優(yōu)秀的功耗，Habana表示做產(chǎn)品如同做藝術(shù)，這樣的命名方式代表了藝術(shù)與科技的結(jié)合。也許就像是戈雅在繪畫藝術(shù)史中的承前啟后，高迪對于建筑的創(chuàng)造引領(lǐng)，Habana也準備將人工智能處理器帶入到新的階段，挑戰(zhàn)CPU與GPU在人工智能領(lǐng)域的固有地位。

發(fā)布九個月性能依舊領(lǐng)先的Goya

早在2018年9月，Habana便推出了Goya處理器，一款基于PCIE，主要用于人工智能推理和預測的傳統(tǒng)服務器產(chǎn)品。而時至今日，這款已經(jīng)發(fā)布了9個月的產(chǎn)品依舊在市場上具有領(lǐng)先的性能。根據(jù)當時RokResNet-50模型上的測試顯示，Goya的圖片處理性能是普通CPU的近10倍，是英偉達Tesla T4的3倍之多，同時在能耗與延時上也都更具優(yōu)勢，Goya的延時僅為1.01ms，幾乎可以實現(xiàn)實時處理圖片的效果。

同樣，在美國知名處理器評論雜志Microprocessor Report給出性能比較結(jié)果中，Goya的性能指數(shù)也同樣三倍于英偉達Tesla T4。

由于Goya展現(xiàn)出的很好的低延遲特性，也讓云計算廠商在將GPU計算資源租給其他用戶時，可以做到單卡資源被多個用戶共享，在保證用戶體驗的同時，還能做到高算力、低成本與可共享。

另外，Goya解決方案涉及完整的硬件與軟件棧，通過Synapse AI可以方便客戶完成定制化的工作，其中包括高性能圖表編譯器、數(shù)百個核心圖書室和與軟件框架整合必需的工具，客戶可用來優(yōu)化人工智能推理的部署。這也使其十分適合業(yè)內(nèi)要求最苛刻的人工智能應用，包括私有與云端數(shù)據(jù)中心、自動駕駛汽車、工廠和倉庫自動化機器人和高端無人機等。

挑戰(zhàn)GPU AI訓練地位的Gaudi

2019年6月19日，Habana在繼去年11月獲得英特爾領(lǐng)投的7500萬美元的B輪投資后，宣布推出主要用于人工智能訓練的Gaudi處理器，新產(chǎn)品同樣具備了秒殺GPU的性能優(yōu)勢，基于Gaudi的訓練系統(tǒng)可以實現(xiàn)比擁有相同數(shù)量的GPU高4倍的處理能力。

Gaudi的性能依然做到了行業(yè)第一，在ResNet-50模型上可以提供每秒1650張的圖片處理能力，功耗僅為150w左右。而英偉達Tesla V100在此測試的處理能力為600張，功耗為300w。在Gaudi與Tesla V100拓展能力的ResNet-50模型測試中，同樣使用700個處理器的情況下，Gaudi的計算能力也能達到V100的3.8倍。

此前，英偉達創(chuàng)始人兼CEO黃仁勛曾經(jīng)在發(fā)布會中談到過選擇RDMA技術(shù)的緣由，隨后英偉達還以70億美元收購了以色列芯片制造商Mellano，其中正是看中了這家公司的RDMA技術(shù)，以此來為該公司的人工智能業(yè)務助力。

“我們認為最好的方法就是在以太網(wǎng)上支持，在傳統(tǒng)以太網(wǎng)上支持RDMA，所以我們也是在這個觀點上我們跟英偉達是一致的�！盚abana首席商務官Eitan Medina首先對于這樣的技術(shù)思路表示贊同，但隨即他又稱：“但是我們跟英偉達做得不一致的方面是直接在單一芯片當中集成了十個支持RDMA的端口，而傳統(tǒng)的V100要支持RDMA，必須要通過一個PCIE的交換，在外面再接一個支持RDMA的網(wǎng)卡，這樣才能實現(xiàn)RDMA的功能�！�

Gaudi上集成了RDMA over Converged Ethernet (RoCE v2) 功能，讓人工智能系統(tǒng)能夠使用標準以太網(wǎng)擴展至任何規(guī)模。憑借Gaudi處理器，Habana Labs的客戶亦可利用標準以太網(wǎng)交換進行人工智能訓練系統(tǒng)的縱向擴展和橫向擴展。同時，以太網(wǎng)交換機已被數(shù)據(jù)中心應用于計算系統(tǒng)和存儲系統(tǒng)的擴展中，在速度和端口數(shù)方面可提供幾乎無限的可擴展性。另外，與Habana的標準設(shè)計相比，基于GPU的系統(tǒng)依賴于專有的系統(tǒng)接口，對系統(tǒng)設(shè)計人員來說，這從本質(zhì)上限制了可擴展性和選擇性。

Habana還通過HLS-1系統(tǒng)將靈活性交給了客戶，可以由客戶選擇自己所希望的CPU的服務器到底是什么類型的。該系統(tǒng)對外提供PCIE接口，同時還提供24個100G以太網(wǎng)接口，主處理器由客戶自行選擇，CPU服務器只要通過PCIE的線即可與HLS-1系統(tǒng)對接。該系統(tǒng)相比于英偉達DGX-1的優(yōu)勢在于解決了NVLink專有協(xié)議只能在兩個芯片間互聯(lián)的問題，避免存在的內(nèi)部互聯(lián)阻塞，不再依賴于DGX-1僅有的四個100G以太網(wǎng)端口，同時避免數(shù)據(jù)通訊在PCIE總線上復用是造成的傳輸性能損失。

人工智能專用處理器的優(yōu)勢

據(jù)悉，截止去年年底大概有90%以上的公司還在選擇將人工智能的推理和預測使用CPU平臺，而在訓練場景中，GPU則占據(jù)著一定的市場份額。而Habana的產(chǎn)品則主要分為推理預測和訓練這兩個類別，當針對推理和預測的Goya、針對訓練的Gaudi這樣的人工智能專用處理器的出現(xiàn)，更高性能、更低功耗的專用處理器產(chǎn)品將會同時挑戰(zhàn)CPU與GPU在原有人工智能領(lǐng)域的份額。

而從目前產(chǎn)品的技術(shù)參數(shù)來看，Goya、Gaudi已經(jīng)展現(xiàn)出了專屬于人工智能而進行設(shè)計的優(yōu)勢，這兩款產(chǎn)品均僅采用了16nm工藝，并未陷入到目前CPU、GPU對于10nm、7nm的工藝攀比中，而是通過專門針對人工智能而設(shè)計的架構(gòu)來獲得性能上的巨大優(yōu)勢，同樣也能在功耗上獲得領(lǐng)先優(yōu)勢。

Eitan Medina表示：“Habana的主要目的就是未來在人工智能芯片領(lǐng)域做這個產(chǎn)業(yè)的領(lǐng)導者。”據(jù)了解，目前Habana已經(jīng)擁有150名來自于處理器、DSP、系統(tǒng)設(shè)計以及網(wǎng)絡設(shè)計等知名公司的專職員工，并且這個數(shù)字還在不斷增長，其中不少員工都有20年以上的DSP和處理器領(lǐng)域的經(jīng)驗。

據(jù)悉，Habana將會把處理器能力、網(wǎng)絡計算能力、系統(tǒng)設(shè)計能力、軟件平臺能力集中整合，最終給客戶提供一個非常靈活和完整的系統(tǒng)。目前，Habana已經(jīng)擁有不少數(shù)據(jù)中心類的客戶，同時一些如自動駕駛類的其它場景客戶也正在增加。

專注AI專用處理器，Habana欲“群戰(zhàn)”CPU與GPU