Seit der Ampere-Generation hat Nvidia sein Titan-Flaggschiff durch die 90er-Serie ersetzt, die sich an professionelle Anwender richtet, die aber auch spielen.
Die GB202-GPU der Nvidia GeForce RTX 5090 bringt erhebliche Hardware-Verbesserungen als die AD102-GPU der RTX 4090 und die GA102-GPU der RTX 3090 Ti.
Während sowohl die RTX 3090 Ti als auch die RTX 4090 die Möglichkeit boten, den VRAM-ECC-Status im Treiber umzuschalten, fehlt diese Option seltsamerweise bei der RTX 5090.
Was genau ist ECC-Speicher?
ECC steht für Error Correction Code und ist eine Technik, die es dem Speicher ermöglicht, Fehler selbst zu korrigieren. Speicherfehler treten auf, wenn bei der Datenübertragung Bits vertauscht werden oder Fehler in die Daten eingeschleust werden, während die Speicherzellen entladen und ihre Ladung wieder auffüllen.
Die Selbstkorrektur erfolgt entweder durch einen dedizierten neunten Speicherchip, der die Parität zwischen den anderen acht Chips auf dem RAM-Modul überprüft (bekannt als On-Die ECC), oder auf der Ebene des Speichercontrollers (DRAM-ECC).
DDR5-Systemspeicher für Endverbraucher unterstützt ECC, jedoch nicht in vollem Umfang. Standardmäßig kann DDR5-RAM Mehrbitfehler erkennen, aber nur Einbitfehler durch integrierte Datenprüfung korrigieren.
Aufgrund der Art und Weise, wie DDR5 den 64-Bit-Speicher in zwei 32-Bit-Subkanäle unterteilt, wird DDR5-ECC-RAM in 72-Bit- (32+4) EC4- oder 80-Bit- (32+8) EC8-Modulen angeboten.
ECC-Speicher wird im Consumer-Bereich nur selten benötigt. Wenn Sie sich bei diesem Begriff unsicher sind, werden Sie vermutlich keinen ECC-Speicher benötigen.
Dennoch ist ECC-Speicher für unternehmenskritische Anwendungen und im Bereich des maschinellen Lernens, bei denen die Datenintegrität über die gesamte Kette hinweg gewährleistet sein muss, von entscheidender Bedeutung.
Google hat dies bereits 1999 auf die harte Tour erfahren, als die Verwendung von ECC-Speicher die Leistung seiner Suchmaschine aufgrund von Speicherfehlern drastisch beeinträchtigte.

Alle Grafikprozessoren mit GDDR5- und GDDR6/6X-VRAM verfügen über eine Methode zur Erkennung von Speicherfehlern, den sogenannten Error Detection Code (EDC).
Bei Nvidia-GPUs wird diese Funktion als Error Detection and Replay (EDR) bezeichnet. Dabei handelt es sich um eine Möglichkeit, nach Durchführung einer zyklischen Redundanzprüfung (CRC) eine erneute Übertragung von Bits vom Speichercontroller anzufordern.
EDR hilft, Pixelartefakte zu minimieren, wenn der VRAM übertaktet wird, obwohl es die Leistung leicht beeinträchtigen kann.
ECC-VRAM bei der RTX 4090 und RTX 5090
Obwohl es nicht häufig diskutiert wird, ist eine Besonderheit der Nvidia GeForce RTX 3090 Ti und der RTX 4090 Desktop-GPUs die Möglichkeit, über den Treiber zwischen ECC- und Nicht-ECC-Speicherzuständen umzuschalten.
Diese Funktion fehlt jedoch bei der neuen RTX 5090.
Leistungseinfluss durch ECC-Speicherschutz
Die RTX 3090 Ti und RTX 4090 implementieren ein sogenanntes „Soft ECC“. Bei diesem Ansatz wird kein separater Chip zur Aufrechterhaltung der Parität verwendet. Stattdessen wird durch die Aktivierung dieser Funktion ein Teil des VRAMs zugewiesen, der ähnlich wie ein On-Die-ECC-Modul funktioniert.
Dies führt dazu, dass der insgesamt verfügbare VRAM und die Speichergeschwindigkeit verringert werden. Im Fall der RTX 4090 wird der nutzbare VRAM von 24 GB auf 22,5 GB reduziert, wobei 1,5 GB für die ECC-Funktion reserviert sind.
Das Umschalten des ECC-Status wirkt sich auf die Leistung aus (siehe unten). Wenn ECC auf der RTX 4090 aktiviert ist, sinken die 3DMark Speed Way Scores um 6,4 %, während Cyberpunk 2077: Phantom Liberty einen Rückgang der durchschnittlichen FPS um etwa 5 % erfährt.
Das Ausmaß der Leistungseinbußen hängt von der jeweiligen Arbeitslast ab.
Der GDDR7-VRAM der RTX 5090 ist offiziell für On-Die ECC spezifiziert
Mit GDDR7 hat die JEDEC On-Die ECC als Teil der VRAM-Spezifikation aufgenommen, um der steigenden Fehlerwahrscheinlichkeit aufgrund höherer Speicherdichten Rechnung zu tragen. GDDR7 verwendet On-Die ECC mit einem Transparenzprotokoll, das den Speichercontroller über die Art der aufgetretenen Fehler informiert.
Laut JEDEC ist GDDR7 in der Lage, 1-Bit-Fehler zu 100 % zu korrigieren und 2-Bit-Fehler zu 100 % zu erkennen, wobei die Erkennungsrate bei seltenen 3-Bit-Fehlern leicht auf 99,3 % sinkt.
Darüber hinaus sieht die offizielle Spezifikation auch eine Befehlsadressenparität mit Befehlssperre (CAPARBLK) vor, um die Zuverlässigkeit des Befehlsadressenbusses weiter zu verbessern.
Es ist jedoch nicht klar, ob Blackwells Speichercontroller diese On-Die-ECC-Fähigkeit standardmäßig nutzt.
Der 512-Bit-GDDR7-Speicher der RTX 5090 ist für eine Bandbreite von 1,792 TB/s bei einem schnellen 28-Gbit/s-Takt ausgelegt, was potenziell Übertragungsfehler verursachen kann. Außerdem preist Nvidia die RTX 5090 für KI-Workflows an, die beim Training großer Datensätze von ECC profitieren können.
Trotzdem wird in Nvidias Architektur-Whitepaper nur die Unterstützung für „Enhanced Cyclic Redundancy Check (CRC) for Reliability, Availability, and Serviceability (RAS)“ erwähnt, was nicht dasselbe ist wie ECC.
Während man davon ausgehen kann, dass Nvidia die On-Die-ECC-Funktionalität von GDDR7 für die gemunkelten Blackwell-Workstation-GPUs aktivieren wird, bleibt abzuwarten, ob der ECC-Status-Toggle über ein zukünftiges Treiber- oder VBIOS-Update auch für die RTX 5090 verfügbar sein wird.
Quelle(n)
Eigene