6月16日消息,快科技6月16日消息,高通驍龍?zhí)幚砥饕恢睋碛袠O其強大的GPU性能,常被調侃為“買GPU送CPU”,但官方對于GPU架構的技術細節(jié)一直諱莫如深,每次只說支持XX技術、性能提升XX。
到了最新的驍龍X Elite/Plus系列處理器上,或許是為了更好地對標Intel、AMD,高通空前大方地公開了Adreno X1 GPU的底層細節(jié),頂級型號為Adreno X1-85。
Adreno X1是專門針對Windows PC設計的,圖形接口完整支持DirectX 12.1(Shader Model 6.7/DirectML)、DirectX 11、Vulkan 1.3、OpenCL 3.0,都有原生驅動支持。
FP32單精度浮點性能最高4.6TFlops(每秒4.6萬億次計算),像素填充率最高72Gp/s(每秒720億次)。
如此詳細的架構圖對于高通GPU來說似乎還是第一次,可以看到分為6個著色處理器(SP),整體共計1536個FP32 ALU,可以通俗地表達為1536個核心,最高頻率1.5GHz。
粗暴地按照核心數(shù)計算,這相當于GTX 1660 Ti,或者說三個Arc A770,或者說四分之三個RX 7600。
渲染前端模塊支持每時鐘周期2個三角形和光柵化處理、雙向LRZ(地分辨率深度測試)、基于圖像的可變著色率(VSR Tie2)。
還有專門用于分箱(binning)的前端模塊,與渲染同步運行。
6個SP對應6個渲染后端,每時鐘周期最多48個像素、96個fragment(用于MSAA抗鋸齒)。
另外還有GMU,也就是GPU管理單元,完整支持虛擬化(最多8個虛擬機),還有電源管理的作用。
細看SP部分,也就是SIMD著色處理器,屬于核心執(zhí)行模塊,分為兩個uSPTP(微型著色與紋理流水線)。
整個SP,分布著256個FP32 ALU(單精度浮點算術邏輯單元),支持FP32/16、INT32/16、BF16數(shù)據(jù)類型,支持DP4ACC指令(四路INT8點積),以及512個FP16 ALU(半精度浮點算術邏輯單元),支持FP16、INT16、BF16數(shù)據(jù)類型。
此外,還有32個32位EFU(基本功能單元)、384KB GPR(通用寄存器)、指令緩存、本地緩沖、載入/存儲單元、紋理流水線和紋理緩存、GMEM單元,等等。
GPU內還集成了384KB集群緩存(每兩個SP共享128KB)、1MB一體化二級緩存、6MB系統(tǒng)級緩存(即三級緩存),還有一些其他較小的緩存,用于著色器指令、本地紋理數(shù)據(jù)等。
GMEM是個特殊功能單元,也就是高帶寬的本地GPU顯存,容量3MB,帶寬達2TB/s,與系統(tǒng)內存完全異步。
而且,它不僅僅是緩存,還可以全部或部分靈活地用于色彩與景深緩存、通用本地內存,無論是圖形渲染還是通用計算都可以使用。
它可以讓GPU大大減少對系統(tǒng)內存的依賴,降低對延遲和帶寬的需求,還有著超高的性能與能效。
FlexRender彈性渲染技術也值得一提,可以由驅動控制,針對每一個不同的表面動態(tài)切換不同的渲染模式,提升性能的同時盡可能降低功耗。
具體分為三種模式:
一是Direct Mode,PC標準渲染方式,兼容性最好。
二是Binned Mode,將每一幀畫面切分為不同的區(qū)塊(Tile),每一個都都會進入GMEM,可盡可能減少數(shù)據(jù)移動,提高能效。
三是Bined Direct Mode,前述兩種方式的混合。
軟件方面,高通承諾每月升級GPU驅動,Adreno控制面板可調節(jié)性能和各項功能,而在兼容性方面已經是數(shù)百款流行的Windows應用,已測試的游戲均可查詢,還有豐富的開發(fā)工具。
高通聲稱,Adreno X1對比酷睿Ultra的銳炫核顯,同等功耗下性能領先最多67%,同等行下功耗低最多62%!
對比銳龍9 7040系列中的Radeon 780M更是性能、能效都遙遙領先。
在流行的3A游戲中,官方列出了9款,都基本持平或者優(yōu)于Intel銳炫核顯,優(yōu)勢項目包括《地平線:零之曙光》、《火箭聯(lián)盟》等。