Notebookcheck Logo

Nvidia GeForce RTX 5090 weicht von der Tradition der Flaggschiffe RTX 3090 Ti und RTX 4090 ab und verzichtet auf VRAM ECC für Profi-Workloads

Bei der RTX 5090 Blackwell-GPU kann der ECC-Status nicht mehr umgeschaltet werden
Bei der RTX 5090 Blackwell-GPU kann der ECC-Status nicht mehr umgeschaltet werden
Nvidia hat seltsamerweise die Option zum Umschalten des VRAM-ECC-Status über den Treiber in der RTX 5090 entfernt. Karten wie die RTX 3090 Ti und RTX 4090 ermöglichen das Aktivieren des ECC-Status über den Treiber, um die Speicherzuverlässigkeit für professionelle Workloads zu verbessern, obwohl diese Karten ein „Soft ECC“ anstelle eines dedizierten On-Die-ECC-Speicherchips verwenden.

Seit der Ampere-Generation hat Nvidia sein Titan-Flaggschiff durch die 90er-Serie ersetzt, die sich an professionelle Anwender richtet, die aber auch spielen.

Die GB202-GPU der Nvidia GeForce RTX 5090 bringt erhebliche Hardware-Verbesserungen als die AD102-GPU der RTX 4090 und die GA102-GPU der RTX 3090 Ti.

Während sowohl die RTX 3090 Ti als auch die RTX 4090 die Möglichkeit boten, den VRAM-ECC-Status im Treiber umzuschalten, fehlt diese Option seltsamerweise bei der RTX 5090.

Was genau ist ECC-Speicher?

ECC steht für Error Correction Code und ist eine Technik, die es dem Speicher ermöglicht, Fehler selbst zu korrigieren. Speicherfehler treten auf, wenn bei der Datenübertragung Bits vertauscht werden oder Fehler in die Daten eingeschleust werden, während die Speicherzellen entladen und ihre Ladung wieder auffüllen.

Die Selbstkorrektur erfolgt entweder durch einen dedizierten neunten Speicherchip, der die Parität zwischen den anderen acht Chips auf dem RAM-Modul überprüft (bekannt als On-Die ECC), oder auf der Ebene des Speichercontrollers (DRAM-ECC).

DDR5-Systemspeicher für Endverbraucher unterstützt ECC, jedoch nicht in vollem Umfang. Standardmäßig kann DDR5-RAM Mehrbitfehler erkennen, aber nur Einbitfehler durch integrierte Datenprüfung korrigieren.

Aufgrund der Art und Weise, wie DDR5 den 64-Bit-Speicher in zwei 32-Bit-Subkanäle unterteilt, wird DDR5-ECC-RAM in 72-Bit- (32+4) EC4- oder 80-Bit- (32+8) EC8-Modulen angeboten.

ECC-Speicher wird im Consumer-Bereich nur selten benötigt. Wenn Sie sich bei diesem Begriff unsicher sind, werden Sie vermutlich keinen ECC-Speicher benötigen.

Dennoch ist ECC-Speicher für unternehmenskritische Anwendungen und im Bereich des maschinellen Lernens, bei denen die Datenintegrität über die gesamte Kette hinweg gewährleistet sein muss, von entscheidender Bedeutung.

Google hat dies bereits 1999 auf die harte Tour erfahren, als die Verwendung von ECC-Speicher die Leistung seiner Suchmaschine aufgrund von Speicherfehlern drastisch beeinträchtigte.

EDR auf GDDR6X reduziert die Wahrscheinlichkeit von Abstürzen bei VRAM-Übertaktung. (Bildquelle: Nvidia)
EDR auf GDDR6X reduziert die Wahrscheinlichkeit von Abstürzen bei VRAM-Übertaktung. (Bildquelle: Nvidia)

Alle Grafikprozessoren mit GDDR5- und GDDR6/6X-VRAM verfügen über eine Methode zur Erkennung von Speicherfehlern, den sogenannten Error Detection Code (EDC).

Bei Nvidia-GPUs wird diese Funktion als Error Detection and Replay (EDR) bezeichnet. Dabei handelt es sich um eine Möglichkeit, nach Durchführung einer zyklischen Redundanzprüfung (CRC) eine erneute Übertragung von Bits vom Speichercontroller anzufordern.

EDR hilft, Pixelartefakte zu minimieren, wenn der VRAM übertaktet wird, obwohl es die Leistung leicht beeinträchtigen kann.

ECC-VRAM bei der RTX 4090 und RTX 5090

Obwohl es nicht häufig diskutiert wird, ist eine Besonderheit der Nvidia GeForce RTX 3090 Ti und der RTX 4090 Desktop-GPUs die Möglichkeit, über den Treiber zwischen ECC- und Nicht-ECC-Speicherzuständen umzuschalten.

Diese Funktion fehlt jedoch bei der neuen RTX 5090.

ECC-Statusumschaltung bei der RTX 4090
ECC-Statusumschaltung bei der RTX 4090
Keine Option zum Umschalten des ECC-Status bei der RTX 5090
Keine Option zum Umschalten des ECC-Status bei der RTX 5090

Leistungseinfluss durch ECC-Speicherschutz

Die RTX 3090 Ti und RTX 4090 implementieren ein sogenanntes „Soft ECC“. Bei diesem Ansatz wird kein separater Chip zur Aufrechterhaltung der Parität verwendet. Stattdessen wird durch die Aktivierung dieser Funktion ein Teil des VRAMs zugewiesen, der ähnlich wie ein On-Die-ECC-Modul funktioniert.

Dies führt dazu, dass der insgesamt verfügbare VRAM und die Speichergeschwindigkeit verringert werden. Im Fall der RTX 4090 wird der nutzbare VRAM von 24 GB auf 22,5 GB reduziert, wobei 1,5 GB für die ECC-Funktion reserviert sind.

1,5 GB VRAM werden für ECC zugewiesen
1,5 GB VRAM werden für ECC zugewiesen
Dies wird auch im Task-Manager angezeigt
Dies wird auch im Task-Manager angezeigt

Das Umschalten des ECC-Status wirkt sich auf die Leistung aus (siehe unten). Wenn ECC auf der RTX 4090 aktiviert ist, sinken die 3DMark Speed Way Scores um 6,4 %, während Cyberpunk 2077: Phantom Liberty einen Rückgang der durchschnittlichen FPS um etwa 5 % erfährt.

Das Ausmaß der Leistungseinbußen hängt von der jeweiligen Arbeitslast ab.

3DMark Speed Way auf der RTX 4090
3DMark Speed Way auf der RTX 4090
Die Punktzahl sinkt, wenn ECC aktiviert ist
Die Punktzahl sinkt, wenn ECC aktiviert ist
Cyberpunk 2077 2.21 4K RT Ultra (kein DLSS/FG) auf der RTX 4090
Cyberpunk 2077 2.21 4K RT Ultra (kein DLSS/FG) auf der RTX 4090
Geringfügige Leistungseinbußen bei eingeschalteter ECC
Geringfügige Leistungseinbußen bei eingeschalteter ECC

Der GDDR7-VRAM der RTX 5090 ist offiziell für On-Die ECC spezifiziert

Mit GDDR7 hat die JEDEC On-Die ECC als Teil der VRAM-Spezifikation aufgenommen, um der steigenden Fehlerwahrscheinlichkeit aufgrund höherer Speicherdichten Rechnung zu tragen. GDDR7 verwendet On-Die ECC mit einem Transparenzprotokoll, das den Speichercontroller über die Art der aufgetretenen Fehler informiert.

Laut JEDEC ist GDDR7 in der Lage, 1-Bit-Fehler zu 100 % zu korrigieren und 2-Bit-Fehler zu 100 % zu erkennen, wobei die Erkennungsrate bei seltenen 3-Bit-Fehlern leicht auf 99,3 % sinkt.

Darüber hinaus sieht die offizielle Spezifikation auch eine Befehlsadressenparität mit Befehlssperre (CAPARBLK) vor, um die Zuverlässigkeit des Befehlsadressenbusses weiter zu verbessern.

Übersicht über On-Die ECC auf GDDR7-VRAM. (Wiedergegeben aus dem JEDEC-Dokument JESD239A)
Übersicht über On-Die ECC auf GDDR7-VRAM. (Wiedergegeben aus dem JEDEC-Dokument JESD239A)

Es ist jedoch nicht klar, ob Blackwells Speichercontroller diese On-Die-ECC-Fähigkeit standardmäßig nutzt.

Der 512-Bit-GDDR7-Speicher der RTX 5090 ist für eine Bandbreite von 1,792 TB/s bei einem schnellen 28-Gbit/s-Takt ausgelegt, was potenziell Übertragungsfehler verursachen kann. Außerdem preist Nvidia die RTX 5090 für KI-Workflows an, die beim Training großer Datensätze von ECC profitieren können.

Trotzdem wird in Nvidias Architektur-Whitepaper nur die Unterstützung für „Enhanced Cyclic Redundancy Check (CRC) for Reliability, Availability, and Serviceability (RAS)“ erwähnt, was nicht dasselbe ist wie ECC.

Während man davon ausgehen kann, dass Nvidia die On-Die-ECC-Funktionalität von GDDR7 für die gemunkelten Blackwell-Workstation-GPUs aktivieren wird, bleibt abzuwarten, ob der ECC-Status-Toggle über ein zukünftiges Treiber- oder VBIOS-Update auch für die RTX 5090 verfügbar sein wird.

Quelle(n)

Eigene

Alle 1 Beträge lesen / Antworten
static version load dynamic
Loading Comments
Diesen Artikel kommentieren / Antworten
Teilen Sie diesen Artikel, um uns zu unterstützen. Jeder Link hilft!
Mail Logo
> Notebook Test, Laptop Test und News > News > Newsarchiv > News 2025-02 > Nvidia GeForce RTX 5090 weicht von der Tradition der Flaggschiffe RTX 3090 Ti und RTX 4090 ab und verzichtet auf VRAM ECC für Profi-Workloads
Autor: Vaidyanathan Subramaniam, 14.02.2025 (Update: 14.02.2025)