Nvidia's Pascal Architektur

Pascal ist der Nachfolger der Maxwell-Architektur und wurde 2016 von Nvidia eingeführt. Welche Eigenschaften die Grafikkartenarchitektur bietet und welche Unterschiede zu Maxwell sie aufweist, klären wir in folgendem Artikel.

Klaus Hinum, Veröffentlicht am 17.05.2016 🇺🇸

Pascal wurde von Nvidia während der GTC 2016 im April im großen GP100 Chip vorgestellt. Dieser wird vorerst nur in der professionellen Tesla P100 Karte für Server verwendet. Im Mai folgte dann die erste Consumervariante namens GP104 in der GeForce GTX 1080 und 1070. Diese Chips werden bei TSMC im neuen 16 nm FinFET Prozess gefertigt und sind schon alleine dadurch ein deutlicher Schritt von den alten 28 nm GPUs. Die später nachfolgenden GTX 1050 Ti und 1050 Chips werden bei Samsung in 14 nm FinFET gefertigt.

Die Microarchitektur bei den Pascal Chips ist eine Weiterentwicklung von Maxwell und legt weiterhin großen Wert auf Effizienz. Sie ist modular konzipiert und kann vom Tablet-Chip (Tegra, noch unbestätigt) bis zur großen Server Grafikkarte (Tesla mit dem GP100) eingesetzt werden. Je nach Modell können ein bis 60 Streaming Multiprocessors (SM) eingesetzt werden, die sich jedoch etwas unterscheiden können. Im Topmodell GP100 (für Server) werden 64 Kerne pro SM verbaut. Zusätzlich gibt es noch dedizierte “Double Precision” (DP) Units. Die kleineren Versionen die in Desktops und Notebooks zum Einsatz kommen, verzichten auf die DP Units und bieten dafür 128 Kerne pro SM.

Der GP104, welcher z.B. in der GTX 1080 und GTX 1070 zum Einsatz kommt, bietet vier GPCs (Graphic Processing Clusters), 20 Streaming Multiprocessors (SMs) und 8 Speicherkontroller (=256 Bit). Jede SM beinhaltet 128 (CUDA) Kerne, 256 KB Register File Buffer, 96 KB Shared Memory Einheit, 48 KB L1 Cache und 8 Textureinheiten.

Verglichen zu Maxwell sind folgende Änderungen bei Pascal kommuniziert worden:

Verbesserte Effizienz

Durch den Schritt zum neuen 16nm FinFet Prozess und internen Überarbeitungen steigt die Effizienz wieder deutlich im Vergleich zu Maxwell. Nvidia zeigte in folgenden Diagramm eine deutlich verbesserte Effizienz in allen Bereiche des Stromverbrauchs, besonders in den höheren Regionen.

Nicht nur der 16 nm Prozess, auch die verbesserte Architektur verhelfen Pascal zu deutlichen Geschwindigkeitsgewinnen.

Optimierung der Architektur für höhere Taktraten.

Als Beispiel ist hier die Desktop GTX 1080 zu nennen. Diese kann man im Desktop luftgekühlt auf über 2 GHz übertakten und dadurch deutlich höher als die alte GTX 980 (1216 MHz unübertaktet). Ohne Overclocking taktet die 1080 bereits 40% höher als eine GTX 980. Laut Nvidia deutlich mehr als der 16nm Prozess alleine ermöglicht hätte.

Auch für den schnellen GDDR5X Speicher in den Topmodellen gab es Anpassungen im Chip und Board Design.

Verbesserte Speicherkompression

Die vierte Generation von Delta Color Compression kann neben einer verbesserten 2:1 Kompression nun auch 4:1 und 8:1 komprimieren. Weiters kann der Chip automatisch die verschiedenen Kompressionsarten durchprobieren und die beste auswählen. Dadurch verbessert sich die Kompression im Vergleich zur GTX 980 im (von Nvidia gewählten) Spieledurchschnitt um den Faktor 1.2x. In Verbindung mit der höheren Bandbreite des GDDR5X Grafikspeichers der GTX 1080 kommt es sogar zu einer 1.7x Bandbreitensteigerung.

Beispiel für die Farbkompression einer Spieleszene. Im zweiten Bild sind die bei Maxwell komprimierten Flächen magenta eingefärbt. Im dritten Bild sieht man das Pascal noch deutlich mehr Bildanteile komprimieren kann.

Durchschnittliche Bandbreitenreduktion einiger Spiele. GTX 980 (Maxwell) versus GTX 1080 (Pascal)

Verbesserte Asynchronous Compute Unterstützung

Die Maxwell Architektur konnte überlappende Aufgaben (Compute und Grafik) statisch auf die GPU aufteilen. Diese Partitionierung konnte jedoch erst nach Beendigung beider Aufgaben geändert werden. Falls z.B. einer der beiden Tasks früher fertig war, konnte der verbleibende nicht die ganze GPU nutzen, sondern musste sich auf seinen zugewiesenen Anteil beschränken. Mit Pascal ist die Zuweisung nun dynamisch und kann so die gesamten GPU Resourcen voll ausnutzen.

Dynamische Zuordnung der GPU sobald eine Aufgabe beendet ist.

Drei verschiedene neue Preemption Möglichkeiten: Bei Grafik auf Pixel-Ebene, bei DX12 Compute auf Thread-Ebene und bei CUDA auf Intruktions-Ebene

GPU Boost 3.0

GPU Boost kann die Taktrate der GPU so lange erhöhen bis eine gewisse interne Temperaturgrenze erreicht wird. Neben nicht weiter genannten Verbesserungen, ermöglicht GPU Boost 3.0 nun die individuelle Erhöhung des Taktes pro Spannungspunkt (Voltage Point). Mittels (3rd Party) Scannern kann man die perfekte Kurve pro Spannungspunkt für die jeweilige Karte finden und so höhere Boost-Taktraten festlegen (die GPU übertakten).

Taktrate (y-Achse) zu Spannung (x-Achse). Dank punktweiser Anpassung der Taktrate pro Spannung kann der (übertaktete) Boost nun das theoretische Maximum deutlich besser abdecken.

Simultaneous Multi-Projection

Der Simultaneous Multi-Projection (SMP) Block ist eine neue Hardware-Unit in der PolyMorph Engine am Ende der Geometrie-Pipline und vor den Raster Units. Sie ermöglicht das schnelle Erstellen von von verschiedenen Projektionen (Blickwinkel auf das Bild) bei einem einzelnen Durchgang für die Geometriedaten. Es können bis zu 16 verschiedene Projektionen bei gleichem Viewpoint und zwei verschiedene mit unterschiedlichem Abstand auf der x-Achse berechnet werden. Diese Technik kann z.B. für multiple Monitore mit unterschiedlichem Aufstellungswinkel, VR-Headsets oder gekrümmten Displays genutzt werden.

SMP für Multi-Monitor-Gaming ohne Verzerrungen

Videofunktionen und Displayausgänge

Auch bei den Videofunktionen hat Pascal deutlich zugelegt. Der GP104 kann nun 10-Bit HEVC enkodieren und 10- und 12-Bit HEVC Dekodieren. Auch VP9 Videos können nun hardwarebeschleunigt abgespielt werden (4k 120Hz 320Mbps). In Verbindung mit zusätzlicher Sicherheitshardware, ist Pascal auch erstmals als PlayReady 3.0 (SL3000) zertifiziert und ermöglicht dadurch z.b. die 4K Netflix Wiedergabe unter Windows 10. Ebenfalls neu ist die HDR Unterstützung für HDMI 2.0b und DisplayPort 1.4 (erste Fernseher sind bereits erhältlich, Monitore werden 2017 erwartet).

Weiterhin kann die GP104 GPU vier Displays gleichzeitig betreiben. Neu ist jedoch HDMI 2.0b (Maxwell HDMI 2.0) und DisplayPort 1.4 ("Ready", maximal 7680 x 4320 @ 60 Hz mittels zwei DP 1.3 Anschlüssen).

	GTX 980 (Maxwell)	GTX 1080 (Pascal)
H.264 Encode	Yes	2x 4K @ 60 Hz
HEVC Encode	Yes	2x 4K @ 60 Hz
10-Bit HEVC Encode	No	Yes
HEVC Decode	No	4K @ 120 Hz / 8K @ 30 Hz up to 320 Mbps
VP9 Decode	No	4K @ 120 Hz up to 320 Mbps
10-Bit and 12-Bit HEVC Decode	No	Yes

Zusammenfassung

Mit Pascal macht Nvidia nicht nur einen einfachen Die Shrink der erfolgreichen Maxwell Architektur, sondern bietet zahlreiche Optimierungen und neue Features. Unsere Performancetests der Desktop GTX 1080 beweisen den Performance- und Effizienzsprung der mit der neuen Generation geglückt ist. Mit Simultaneous Multi-Projection liegt der Augenmerk auf Virtual-Reality. GPU-Boost 3.0 hilft beim Übertakten mehr Leistung aus der Grafikkarte zu kitzeln. Die verbesserte Effizienz und Videofunktionen kommen jedoch auch kleineren Notebook-Ablegern zu Gute.

Quellen: Nvidia Presseevent, Pascal White-Paper und Review Guide, Inside Pascal Blog Post (GP100)

Die Kommentare zum Artikel werden geladen

Diesen Artikel kommentieren / Antworten

Teilen Sie diesen Artikel, um uns zu unterstützen. Jeder Link hilft!