GeForce GTX 10 系列提速技術全面睇

GTX 1080 是首款應用新一代 Pascal 架構的顯示卡,採用先進的 16nm FinFET 製程生產,能源效率是上代 28nm 製程 Maxwell 架構的三倍以上。
Pascal 架構可視為 Maxwell 的升級版,並非重大改動的全新架構,由 GTX 1080 的 GP104 核心架構圖可見,整體布局與 Maxwell GM204 類似,整個核心由 4 組 GPC(Graphics Processing Clusters)組成,共用的 L2 Cache 容量維持於 2MB 。 GP104 的記憶體控制器由 4 組 64-bit 改為 8 組 32-bit ,合共則為 256-bit ,與 GTX 980 相同。

GP104 核心架構圖,由 4 組 GPC 組成,記憶體控 制器則分為 8 組。
GP104 核心架構圖,由 4 組 GPC 組成,記憶體控制器則分為 8 組。

每組 GPC 由 5 組 TPC 組成,但所謂的 TPC 其實與上代的 SMM 功能一致, TPC 正是 SM 加上 PolyMorph Engine 而成,後者已升級至第四代,下文將另作介紹;而每組 SM 是由 128 個 CUDA 核心及 8 組 TU 等組成,與 Maxwell 沒有分別。由於每組 GPC 變成 5 組 TPC ( Maxwell 為 4 組 SMM ),每組 GPC 的 CUDA 核心增至 640 個, TU 亦增至 40 個,所以 GTX 1080 正正提供 2,560 個 CUDA 核心與 160 個 TU ,比 GTX980 多出五分之一。
Pascal 架構可以輕易達到極高運作時脈, GTX 1080 的預設核心時脈已達 1,607MHz , Boost 更可達 1,733MHz ,遠高於各款 Maxwell 型號,而且 GPU Boost 3.0 技術將 Frequency Offset 由固定改為根據電壓點實時調節,可以更迅速提升時脈。 GTX 1080 之浮點運算能力更是驚人,官方數字高達 9 TFLOPS ,比上代 GTX Titan X ( 6.1 TFLOPS )或 GTX 980 Ti ( 5.6 TFLOPS )都要高出一大截。
GPU Boost 進化至第三代,可自動提升至更貼近理論最高時脈。
GPU Boost 進化至第三代,可自動提升至更貼近理論最高時脈。

技術提升 1:首度搭載 GDDR5X 記憶體

GTX 1080 的亮點是首度搭載 GDDR5X 記憶體( 1070/1060 為 GDDR5),配合新設計的 GPU 內部及基板 IO 線路,成功將運作時脈提升至 10Gbps ,比主流 GDDR5 的 7Gbps 高出四成以上,因此 GTX 1080 的理論頻寬高達 320GB/s 。

Delta Color 壓縮技術進化至第四代,新增 4:1 及 8:1 兩級更高的壓縮比例。
Delta Color 壓縮技術進化至第四代,新增 4:1 及 8:1 兩級更高的壓縮比例。

與此同時, Pascal 架構的 Delta Color 記憶體壓縮技術進一步強化,新增 4:1 及 8:1 壓縮支援,節省要傳輸的材質。 NVIDIA 指出,受惠於 GDDR5X 帶來的 1.4X 頻寬,以及新壓縮技術的 1.2X 效率, Pascal 的有效頻寬足足是 Maxwell 的 1.7X 。
[row][third_paragraph]
以 Project Cars 遊戲為例,洋紅色代表畫面中可被壓縮的部分,可見 Pascal 可以壓縮畫面絕大部分內容。
[/third_paragraph][third_paragraph] 1191PAS24p11 [/third_paragraph][third_paragraph]1191PAS24p12[/third_paragraph][/row]
以 Project Cars 遊戲為例,洋紅色代表畫面中可被壓縮的部分,可見 Pascal 可以壓縮畫面絕大部分內容。

技術提升 2:全面提升運算效率

Pascal 架構的 GTX 1080 加入多方面的新技術,務求全面提升效能。首先是 Async Compute 方面的優化,現今 GPU 除了應付遊戲之外,亦要身兼音效處理、Physics,以至 GPGPU 等不同類型的運算工作,而且不同運算工作往往需要同時處理,Pascal 引入 DynamicLoad Balancing,有效調配 GPU 資源,避免閒置資源影響效率。

動態調配 GPU 運算資源處理 Graphics 或 Compute 工作,避免閒置而影響效率。
動態調配 GPU 運算資源處理 Graphics 或 Compute 工作,避免閒置而影響效率。

此外,Pascal 更將 Graphics Preemption 優化到 Pixel Level,例如渲染一個三角形材質時,渲染工作可以在當前的像素即時中止,將有關 SM 單元轉移到其他運算工作,廠方稱切換過程可於 100μs 之內完成。在運算工作中,Pascal 可支援 Thread Level之Compute Preemption,運行 CUDA 程式時甚至可精細到 Instruction Level,亦即是指令碼的程度,全面提升運算效率。
NVIDIA 官方數字稱 GTX 1080 受益於製程及架構,遊 戲效能是 GTX 980 的 1.7X, VR 效能更達到 2.7X。
NVIDIA 官方數字稱 GTX 1080 受益於製程及架構,遊戲效能是 GTX 980 的 1.7X,VR 效能更達到 2.7X。

技術提升 3:加入 HDR 支援

HDR 勢將成為顯示技術的下一個突破點,可望大幅提升可視色彩數目、色域、亮度以至對比度等,GTX 1080 的 HDR 支援已經相當全面,繼承 Maxwell 本身對應之 12-bit 色彩、BT.2020 色域之外,更加入 HDR HEVC 影片之 4K@60Hz 解碼(對應 10-bit 或 12-bit)及編碼(對應 10-bit)支援,並且對應 HDMI 2.0b 與 DP 1.4 兩大支援 HDR 之輸出介面。
NVIDIA 表示正與遊戲開發商積極合作,提供適合 HDR 之 API 及驅動程式支援,期望更多遊戲支援 HDR,即將加入支援的作品包括 Rise of the Tomb Raider、The Witness、Obduction、Paragon、Lawbreakers 等。

雖然 HDR 在電腦應用仍在初步階段,Pascal 已率先加入全面支援。
雖然 HDR 在電腦應用仍在初步階段,Pascal 已率先加入全面支援。

技術提升 4:硬體解碼、編碼引擎再升級

GTX 1080 的硬體解碼、編碼引擎進一步升級。先是解碼方面, H.264 格式可支援至 4K@120Hz 、 最高 240Mbps 之影片, HEVC 與 VP9 同樣支援至 4K@120Hz 、最高 320Mbps 影片, HEVC 更率先對應 8K@30Hz 解像度,數字上超前目前攝影裝備之水平。編碼方面, H.264 與 HEVC 兩種格式均支援兩組 4K@60Hz ,上文提到的 HDR 支援就不再重複了。顯示輸出方面, Maxwell 已對應 5K ( 5,120×3,200 )輸出, Pascal 更提升至 7,680×4,320 水平, 需要用到兩組 DP 1.3 介面才可達成。

GTX 980(Maxwell)與 GTX 1080(Pascal)的解碼、編碼支援比較表。
GTX 980(Maxwell)與 GTX 1080(Pascal)的解碼、編碼支援比較表。

技術提升 5:Ansel 遊戲拍攝神器

NVIDIA 今次亦帶來全新的 Ansel 遊戲擷取工具,將遊戲由擷圖提升至拍攝的層次,皆因 Ansel 可以將遊戲暫停,讓用家自由移動視角(例如改變高度、方向等),以 Free Camera 拍攝遊戲畫面,更支援 360 度全景相片、加入各式濾鏡以至 EXR 曝光等玩法。Ansel 的另一絕技是 Super Resolution,可以拍攝出屏幕解像度的 32 倍的相片,方法是將屏幕分割成多個範圍並進行快速擷取,然後再運用 CUDA 進行 Stitching 合併成超高解像度的單一相片, 製作品最高解像度達 4.5Gigapixel,檔案大小高達 1.5GB!

畫面左方是 Ansel 的 Overlay控制介面,用家可自由控制拍攝角度、解像度及特效。
畫面左方是 Ansel 的 Overlay控制介面,用家可自由控制拍攝角度、解像度及特效。

技術提升 6:全面優化 VR

Pascal PolyMorph Engine 升級至第四代,主打是新增的 Simultaneous Multi-Projection 引擎。這個同步多重投影功能的原理,是使用單一 Geometry Stream 進行多個視角的運算,最多支援 16 個預設的視角。由於該引擎設於 TPC 內及整個 SM 之前,可以將原本多次的渲染工作,變成只需單一運算流程即可完成,大幅提升效率。

Simultaneous Multi-Projection 可以大幅節省運算資源,以 Oculus Rift 為例,要處理的像素由 4.2MP 大降至 2.8MP。
Simultaneous Multi-Projection 可以大幅節省運算資源,以 Oculus Rift 為例,要處理的像素由 4.2MP 大降至 2.8MP。

此功能更對應 Single Pass Stereo,顧名思義是同時支援兩個獨立的主視點(Projection Centers),一次過完成運算。將上述技術應用在 VR 裝置中,就可以運算出 VR 左右畫面的不同軸向,在單一一次運算中完成左右兩個畫面的渲染工作,從而節省運算資源。
圖為 VR 的模擬投影方式示 意圖,原本需要進行左右畫面兩次渲染,配合 Single Pass Stereo 就可以一次過完成,節省一半運算資源。
圖為 VR 的模擬投影方式示意圖,原本需要進行左右畫面兩次渲染,配合 Single Pass Stereo 就可以一次過完成,節省一半運算資源。

Lens Matched Shading 則是模擬出 VR 鏡片的光學弧度及變形情況,亦即是用家實際所見到的畫面範圍,才渲染出實際可見的畫面,大幅減少要處理的像素數目。再結合原有之 Multi-Resolution 技術,即是以較高解像度渲染畫面中央焦點部分、周圍背景則以較低解像度渲染,Pascal 的 VR 效能得以大幅提升。
[row][double_paragraph]1191PAS24p27 [/double_paragraph][double_paragraph] 1191PAS24p28 [/double_paragraph] [/row]
由這個 VR Demo 可見,啟用 Simultaneous Multi-Projection 後,FPS 即時由 50-60FPS 大增至90-100FPS。

Scroll to Top