Nvidia's Pascal Architektur
Pascal wurde von Nvidia während der GTC 2016 im April im großen GP100 Chip vorgestellt. Dieser wird vorerst nur in der professionellen Tesla P100 Karte für Server verwendet. Im Mai folgte dann die erste Consumervariante namens GP104 in der GeForce GTX 1080 und 1070. Diese Chips werden bei TSMC im neuen 16 nm FinFET Prozess gefertigt und sind schon alleine dadurch ein deutlicher Schritt von den alten 28 nm GPUs. Die später nachfolgenden GTX 1050 Ti und 1050 Chips werden bei Samsung in 14 nm FinFET gefertigt.
Die Microarchitektur bei den Pascal Chips ist eine Weiterentwicklung von Maxwell und legt weiterhin großen Wert auf Effizienz. Sie ist modular konzipiert und kann vom Tablet-Chip (Tegra, noch unbestätigt) bis zur großen Server Grafikkarte (Tesla mit dem GP100) eingesetzt werden. Je nach Modell können ein bis 60 Streaming Multiprocessors (SM) eingesetzt werden, die sich jedoch etwas unterscheiden können. Im Topmodell GP100 (für Server) werden 64 Kerne pro SM verbaut. Zusätzlich gibt es noch dedizierte “Double Precision” (DP) Units. Die kleineren Versionen die in Desktops und Notebooks zum Einsatz kommen, verzichten auf die DP Units und bieten dafür 128 Kerne pro SM.
Der GP104, welcher z.B. in der GTX 1080 und GTX 1070 zum Einsatz kommt, bietet vier GPCs (Graphic Processing Clusters), 20 Streaming Multiprocessors (SMs) und 8 Speicherkontroller (=256 Bit). Jede SM beinhaltet 128 (CUDA) Kerne, 256 KB Register File Buffer, 96 KB Shared Memory Einheit, 48 KB L1 Cache und 8 Textureinheiten.
Verglichen zu Maxwell sind folgende Änderungen bei Pascal kommuniziert worden:
Verbesserte Effizienz
Durch den Schritt zum neuen 16nm FinFet Prozess und internen Überarbeitungen steigt die Effizienz wieder deutlich im Vergleich zu Maxwell. Nvidia zeigte in folgenden Diagramm eine deutlich verbesserte Effizienz in allen Bereiche des Stromverbrauchs, besonders in den höheren Regionen.
Optimierung der Architektur für höhere Taktraten.
Als Beispiel ist hier die Desktop GTX 1080 zu nennen. Diese kann man im Desktop luftgekühlt auf über 2 GHz übertakten und dadurch deutlich höher als die alte GTX 980 (1216 MHz unübertaktet). Ohne Overclocking taktet die 1080 bereits 40% höher als eine GTX 980. Laut Nvidia deutlich mehr als der 16nm Prozess alleine ermöglicht hätte.
Auch für den schnellen GDDR5X Speicher in den Topmodellen gab es Anpassungen im Chip und Board Design.
Verbesserte Speicherkompression
Die vierte Generation von Delta Color Compression kann neben einer verbesserten 2:1 Kompression nun auch 4:1 und 8:1 komprimieren. Weiters kann der Chip automatisch die verschiedenen Kompressionsarten durchprobieren und die beste auswählen. Dadurch verbessert sich die Kompression im Vergleich zur GTX 980 im (von Nvidia gewählten) Spieledurchschnitt um den Faktor 1.2x. In Verbindung mit der höheren Bandbreite des GDDR5X Grafikspeichers der GTX 1080 kommt es sogar zu einer 1.7x Bandbreitensteigerung.
Verbesserte Asynchronous Compute Unterstützung
Die Maxwell Architektur konnte überlappende Aufgaben (Compute und Grafik) statisch auf die GPU aufteilen. Diese Partitionierung konnte jedoch erst nach Beendigung beider Aufgaben geändert werden. Falls z.B. einer der beiden Tasks früher fertig war, konnte der verbleibende nicht die ganze GPU nutzen, sondern musste sich auf seinen zugewiesenen Anteil beschränken. Mit Pascal ist die Zuweisung nun dynamisch und kann so die gesamten GPU Resourcen voll ausnutzen.
GPU Boost 3.0
GPU Boost kann die Taktrate der GPU so lange erhöhen bis eine gewisse interne Temperaturgrenze erreicht wird. Neben nicht weiter genannten Verbesserungen, ermöglicht GPU Boost 3.0 nun die individuelle Erhöhung des Taktes pro Spannungspunkt (Voltage Point). Mittels (3rd Party) Scannern kann man die perfekte Kurve pro Spannungspunkt für die jeweilige Karte finden und so höhere Boost-Taktraten festlegen (die GPU übertakten).
Simultaneous Multi-Projection
Der Simultaneous Multi-Projection (SMP) Block ist eine neue Hardware-Unit in der PolyMorph Engine am Ende der Geometrie-Pipline und vor den Raster Units. Sie ermöglicht das schnelle Erstellen von von verschiedenen Projektionen (Blickwinkel auf das Bild) bei einem einzelnen Durchgang für die Geometriedaten. Es können bis zu 16 verschiedene Projektionen bei gleichem Viewpoint und zwei verschiedene mit unterschiedlichem Abstand auf der x-Achse berechnet werden. Diese Technik kann z.B. für multiple Monitore mit unterschiedlichem Aufstellungswinkel, VR-Headsets oder gekrümmten Displays genutzt werden.
Videofunktionen und Displayausgänge
Auch bei den Videofunktionen hat Pascal deutlich zugelegt. Der GP104 kann nun 10-Bit HEVC enkodieren und 10- und 12-Bit HEVC Dekodieren. Auch VP9 Videos können nun hardwarebeschleunigt abgespielt werden (4k 120Hz 320Mbps). In Verbindung mit zusätzlicher Sicherheitshardware, ist Pascal auch erstmals als PlayReady 3.0 (SL3000) zertifiziert und ermöglicht dadurch z.b. die 4K Netflix Wiedergabe unter Windows 10. Ebenfalls neu ist die HDR Unterstützung für HDMI 2.0b und DisplayPort 1.4 (erste Fernseher sind bereits erhältlich, Monitore werden 2017 erwartet).
Weiterhin kann die GP104 GPU vier Displays gleichzeitig betreiben. Neu ist jedoch HDMI 2.0b (Maxwell HDMI 2.0) und DisplayPort 1.4 ("Ready", maximal 7680 x 4320 @ 60 Hz mittels zwei DP 1.3 Anschlüssen).
GTX 980 (Maxwell) | GTX 1080 (Pascal) | |
---|---|---|
H.264 Encode | Yes | 2x 4K @ 60 Hz |
HEVC Encode | Yes | 2x 4K @ 60 Hz |
10-Bit HEVC Encode | No | Yes |
HEVC Decode | No | 4K @ 120 Hz / 8K @ 30 Hz up to 320 Mbps |
VP9 Decode | No | 4K @ 120 Hz up to 320 Mbps |
10-Bit and 12-Bit HEVC Decode | No | Yes |
Zusammenfassung
Mit Pascal macht Nvidia nicht nur einen einfachen Die Shrink der erfolgreichen Maxwell Architektur, sondern bietet zahlreiche Optimierungen und neue Features. Unsere Performancetests der Desktop GTX 1080 beweisen den Performance- und Effizienzsprung der mit der neuen Generation geglückt ist. Mit Simultaneous Multi-Projection liegt der Augenmerk auf Virtual-Reality. GPU-Boost 3.0 hilft beim Übertakten mehr Leistung aus der Grafikkarte zu kitzeln. Die verbesserte Effizienz und Videofunktionen kommen jedoch auch kleineren Notebook-Ablegern zu Gute.
Quellen: Nvidia Presseevent, Pascal White-Paper und Review Guide, Inside Pascal Blog Post (GP100)