SoC-Shootout: x86 vs. ARM
x86 = Performance, ARM = Low-Power – das war einmal: Während man im x86-Bereich zuletzt nur marginale Leistungssteigerungen beobachten konnte, haben SoCs der ARM-Architektur in den letzten Jahren einen gewaltigen Entwicklungssprung gemacht. Markierten vor rund vier Jahren noch Single-Cores mit 1,0 GHz die absolute Leistungsspitze, bieten heutige High-End-Chips mit vier Kernen, Taktraten um 2,0 GHz und drastisch verbesserter Mikroarchitektur die mehr als 10-fache Performance auf. Gleichzeitig stieg allerdings auch die Leistungsaufnahme, sodass Throttling mittlerweile auch bei Smartphones und Tablets kein Fremdwort mehr ist.
Während ARM-Chips zunehmend in höhere Leistungsgefilde vorstoßen, geht der Trend bei ultramobilen x86-Prozessoren in die genau entgegengesetzte Richtung. Intels im Jahre 2008 vorgestellter "Ur-Atom" war dabei nur der Auftakt: Höhere Integrationsdichten und stetig sinkende Verbrauchswerte ermöglichen es nicht nur, immer dünnere und ausdauerndere Notebooks zu konstruieren, sondern erlauben erstmals auch den x86-Einsatz in kompakten Tablets und Smartphones.
Das Ergebnis dieser Entwicklung ist absehbar: Statt wie bislang weitestgehend nebeneinander her zu existieren, werden ARM und x86 künftig mehr und mehr um ein und dieselben Märkte konkurrieren. Grund genug für uns, mit diesem Artikel die aktuelle Situation zu analysieren, um im Anschluss einen vorsichtigen Blick in die Zukunft zu wagen.
Low-Power-Architekturen unter der Lupe
Sowohl im x86- als auch ARM-Segment existieren unterschiedliche Architekturen, die verschiedene Ansprüche bzgl. Leistungsfähigkeit, Energiebedarf und Preis befriedigen sollen. IP-Core-Spezialist ARM bietet seinen Kunden derzeit drei wesentliche Designs an (den Cortex-A5 als absolute Low-End-Lösung wollen wir an dieser Stelle außen vor lassen):
Der Cortex-A7 kann als aufgefrischter und weiter optimierter Nachfolger des älteren Cortex-A8 angesehen werden, der unter anderem in Apples iPhone 4 (Apple-A4-SoC) eingesetzt wurde. Typischerweise wird der Cortex-A7 als Dual- oder Quad-Core-Chip mit Taktraten von 1,0 bis 1,5 GHz angeboten, zählt in puncto Performance aber dennoch nur zur Einstiegsklasse. Die einfache, nur 8 Stufen lange und (teilweise) zweifach superskalare Pipeline arbeitet Befehle in fester Reihenfolge ab (In-Order-Execution), wodurch die Pro-MHz-Leistung relativ niedrig ausfällt. Größter Vorteil des Designs ist der minimale Platzbedarf von nur etwa 0,5 mm² pro Kern (bei 28-Nanometer-Fertigung) sowie die hohe Energieeffizienz. Aus diesem Grund wird der A7 auch für ARMs sogenanntes big.LITTLE-Konzept genutzt (z.B. Samsung Exynos 5410), wo er im Verbund mit schnellen, aber deutlich hungrigeren Cortex-A15-Kernen einfache Anwendungen und Hintergrundaufgaben übernimmt.
Während der Cortex-A9 vor ein bis zwei Jahren noch zum absoluten High-End zählte, findet man ihn mittlerweile nur noch in Einstiegs- und Mittelklasse-SoCs. Obwohl deutlich größer und Out-of-Order-fähig, ist der A9 bei gleichem Takt in den meisten Fällen nur unwesentlich schneller als der preiswerte Cortex-A7. Auch ARM hat dieses Problem erkannt und deshalb verbesserte Versionen wie den A9r4 entwickelt, der beispielsweise bei Nvidias kommendem Tegra 4i zum Einsatz kommen soll. Dank Taktraten von bis zu 2,3 GHz und vielen Detailoptimierungen könnte die Architektur so noch ihren zweiten Frühlung erleben.
Der Cortex-A15 zählt zu den derzeit leistungsstärksten Implementierungen der ARM-ISA. Das mächtige, dreifach superskalare Out-of-Order-Design profitiert unter anderem von einer verbesserten Sprungvorhersage und schnellen mehrstufigen Caches – laut ARM verspricht dies bis zu 40 Prozent mehr Performance gegenüber einem identisch getakteten Cortex-A9. Auf der Kehrseite steht dagegen ein ausgesprochen hoher Energiebedarf, der den Einsatz in kompakten Smartphones erschwert. Wichtige Vertreter der Cortex-A15-Architektur sind Nvidias Tegra 4 sowie der bereits zuvor erwähnte Samsung Exynos 5410.
Ein Hersteller von ARM-SoCs muss allerdings nicht zwangsläufig den kompletten Kern lizenzieren. Ebenso ist es möglich, ein ARM-kompatibles Eigendesign zu entwickeln (derzeit aktuell: ARMv7-ISA) – eine Möglichkeit, die zum Beispiel von Qualcomm oder Apple genutzt wird. Qualcomms ältere Scorpion-Architektur ist dabei zwischen dem Cortex-A8 und Cortex-A9 einzuordnen, die aktuellen Krait- (Qualcomm) und Swift-Kerne (Apple) zwischen dem Cortex-A9 und Cortex-A15. Vorteil dieser Eigenentwicklungen: Ein jeweils optimaler Kompromiss zwischen Performance und Leistungsaufnahme, zusätzliche Features sowie zum Teil frühere Verfügbarkeit und niedrigere Lizenzgebühren.
Mit Intels Atom und AMDs Jaguar (letzterer ist allerdings nur eingeschränkt für wirklich kompakte Mobilgeräte geeignet) existieren im x86-Bereich nur zwei aktuelle Low-Power-Architekturen. "Aktuell" ist im Falle des Atom zudem höchst relativ: Der eigentliche Kern wurde seit der Vorstellung 2008 kaum modifiziert, das IPC-schwache In-Order-Design läuft der Konkurrenz von AMD in Benchmarks mit großem Abstand hinterher. Dafür punktet der Atom mit seiner extremen Sparsamkeit – kein anderer moderner x86-Chip kann sogar in Smartphones eingesetzt werden.
Die Testkandidaten
Für unseren Test haben wir insgesamt 7 verschiedene SoCs ausgewählt, die innerhalb der letzten gut zwei Jahre auf den Markt kamen. Einige sind eher dem Einstiegssegment zuzuordnen, während andere den Performance- und High-End-Bereich vertreten. Ebenso unterscheiden sich Einsatzgebiet (Smartphone/Tablet/Notebook) sowie Leistungsaufnahme teils drastisch, was wir in unserer Analyse natürlich berücksichtigen werden.
Mit 15 Watt TDP spielt der 1,5 GHz schnelle A4-5000 Quad-Core (28 nm, rund 107 mm²) in diesem Test etwas außerhalb der Konkurrenz. Wir wollen herausfinden: Wie schlägt sich die Jaguar-Architektur gegen die ARM-Alternativen? Spiegelt sich der höhere Verbrauch in einer dementsprechend besseren Performance wieder? Was leistet die Radeon HD 8330 im Vergleich? Als Testgerät dient ein Reference Design Notebook von AMD.
In einer mit dem ARM-Kontrahenten vergleichbaren TDP-Klasse spielt dagegen Intels Atom Z2760. Der 65 mm² große Dual-Core-Chip (32 nm) mit Hyper-Threading und 1,8 GHz Taktrate integriert eine PowerVR-SGX545-GPU und tritt ebenso wie der AMD-Chip unter Windows 8 an. Unsere Benchmarks wurden mit dem Acer Iconia W3-810 sowie dem Lenovo IdeaTab Lynx durchgeführt.
Lang erwartet, endlich da: Mit einiger Verspätung betritt Nvidias Tegra 4 (28 nm, etwa 80 mm²) die Bühne. Der ARM-SoC setzt auf 4 Cortex-A15 Kerne mit 1,8 GHz, einen zusätzliche Companion Core zum Stromsparen sowie eine stark aufgebohrte GeForce-ULP-Grafikeinheit. Kann das Toshiba eXcite Pro so auch die x86-Gegner bezwingen?
Mit seinem 1,9 GHz schnellen S600-Quad-Core (28 nm, geschätzte Größe 80 mm²) ist das Samsung Galaxy S4 eines der aktuell leistungsstärksten Smartphones – ein Nachfolger mit dem noch schnelleren Snapdragon 800 steht allerdings kurz bevor. Für die Grafikausgabe ist eine Adreno-320-GPU zuständig.
Als ehemaliger High-End-Chip bietet der Cortex-A9 Quad-Core Tegra 3 (40 nm, etwa 80 mm²) noch immer eine solide Performance, kämpft aber nicht mehr um die absolute Leistungsspitze mit. Im Asus Transformer Pad TF300T taktet der SoC mit 1,2 bis 1,3 GHz (Tegra 3 T30L), die schnellste Version (Tegra 3 T33) erreicht sogar 1,6 bis 1,7 GHz.
Günstige Tablets wie das Asus Memo Pad HD 7 boomen, nicht zuletzt dank attraktiver Cortex-A7-Chips wie dem MT8125 (28 nm, Größe unbekannt) von Mediatek. Was leisten der vermeintlich schwache 1,2 GHz Quad-Core und die PowerVR-SGX544-GPU? Insbesondere das Duell mit Nvidias Tegra 3 verspricht einige Spannung.
Obwohl erst etwas über zwei Jahre alt, zählt das von HTC gebaute Smartphone Evo 3D in diesem Testumfeld bereits zum alten Eisen. Der 1,2 GHz schnelle Scorpion-Dual-Core und die Adreno-220-GPU des Snapdragon S3 (45 nm, Größe unbekannt) dienen uns als Referenz für die Entwicklung der letzten Jahre.
Benchmarks
Bevor wir nun zu den eigentlichen Messungen kommen, wollen wir noch folgendes vorwegstellen: Benchmarks zwischen verschiedenen Geräten und Betriebssystemen bergen ein hohes Fehlerpotential, welches sich auch durch sorgfältige Testbedingungen nicht vollständig eliminieren lässt. Kleinigkeiten wie unterschiedliche Displayauflösungen, vor allem aber abweichende Compiler und Optimierungen der eingesetzten Cross-Plattform-Benchmarks können mitunter erhebliche Auswirkungen auf die Ergebnisse haben. Um dennoch eine bestmögliche Vergleichbarkeit zu gewährleisten, haben wir alle Browser-Benchmarks mit der jeweils aktuellsten Version von Google Chrome für Android respektive Windows durchgeführt. Weiterhin haben wir besonders bei den sehr energiehungrigeren SoCs darauf geachtet, zwischen den Messungen ausreichende zeitliche Abstände zu wahren, um so die Throttling-Gefahr zu senken.
CPU-Leistung
Werfen wir zunächst einen Blick auf die CPU-Leistung in zwei synthetischen Cross-Plattform-Benchmarks. Speziell der Geekbench 2 ist dabei als höchst theoretisch einzustufen und sollte folglich nicht überbewertet werden. Die Ergebnisse sind indes äußerst interessant: Sowohl Tegra 4 als auch der Snapdragon 600 können den A4-5000 schlagen. Dies ist vor allem auf eine deutlich höhere Punktzahl im Floating-Point-Test zurückzuführen, wo die beiden ARM-SoCs mit 57 beziehungsweise 32 Prozent in Führung gehen. In vielen praktischen Anwendungen ist allerdings eher die Integer-Leistung entscheidend, die wiederum bei AMDs x86-APU höher ausfällt.
Mit einigem Respektabstand auf das Trio an der Spitze folgen Intels Atom Z2760 sowie die beiden Cortex-A9- und Cortex-A7-SoCs. Insbesondere der quasi-Gleichstand zwischen den beiden letzteren überrascht: Der theoretische Vorteil des deutlich mächtigeren Cortex-A9-Designs scheint sich in diesem Benchmark nicht auszuzahlen.
Im Physik-Test des aktuellen 3DMark verschieben sich die Kräfteverhältnisse nur geringfügig. Allerdings macht der AMD A4-5000 einen Sprung nach vorn und setzt sich an die Spitze des Feldes – in unseren Augen ein realistischeres Ergebnis als zuvor im Geekbench. Erneut hervor sticht die exzellente Performance des MT8125, der Nvidias Tegra 3 reichlich alt aussehen lässt. Vermutlich profitiert der Chip von seiner extrem niedrigen Leistungsaufnahme, die auch bei Volllast maximale Taktraten auf allen vier Kernen erlaubt.
Im Gegensatz zum Geekbench und dem 3DMark Physics Test belasten die meisten Browser-Benchmarks lediglich ein bis zwei CPU-Kerne. Das spielt in erster Linie dem Dual-Core-Chip Atom Z2760 in die Hände, der sich in drei von fünf Tests vor den Snapdragon 600 setzen kann.
Beeindruckend ist der Vorsprung, den der Cortex-A15-basierte Tegra 4 auf alle anderen ARM-SoCs herausholt. In einigen Tests kann sich die Performance sogar mit dem A4-5000 messen – selbst wenn man die 20 Prozent höhere Taktrate herausrechnet, ist die resultierende Pro-MHz-Leistung für ein ARM-Design bemerkenswert. Dabei darf man jedoch nicht vergessen, dass der Cortex-A15 wohl auch in puncto Leistungsaufnahme nicht mehr weit hinter den Jaguar-Kernen von AMD liegt: Wie im Test des Toshiba Excite Pro nachzulesen, beginnt Tegra 4 unter Volllast bereits nach kurzer Zeit zu throtteln – Nvidias Shield-Konsole (die eine noch etwas höher taktende Version des Chips integriert) kommt deshalb nicht ohne Grund mit aktiver Kühlung daher.
GPU-Leistung
In zunehmendem Maße werden Smartphones und Tablets auch als mobile Spielekonsolen eingesetzt, die mit immer besserer Grafik stetig steigende Anforderungen an die verbaute Hardware stellen. Die Leistungsdifferenzen zwischen verschiedenen SoCs sind dabei enorm: Ein Qualcomm S600 mit Adreno-320-GPU ist im GLBenchmark und 3DMark (2013) Faktor 4 bis 6 schneller als Mediateks Low-Cost-Design MT8125 mit PowerVR-SGX544-Grafik. Das aber selbst Tegra 3 und Intels Atom Z2760 nicht besser abschneiden, dürfte so manchen überraschen. Sogar die Adreno 220 des angestaubten Snapdragon S3 liegt auf einem vergleichbaren Niveau. Mit dieser Performance sind anspruchsvolle Android-Games wie Real Racing 3 nur auf niedrigen Einstellungen flüssig spielbar.
Ebenfalls nur bedingt überzeugen kann die Leistung von Tegra 4. Gegenüber dem Snapdragon 600 steht Nvidias High-End-SoC zwar recht gut da, doch vergleichen wir hier Smartphone und Tablet miteinander. In Anbetracht der weitaus höheren Leistungsaufnahme könnte man noch einen etwas deutlicheren Unterschied erwarten. Unangefochtene Nummer eins in allen drei Benchmarks ist die Radeon HD 8330 des AMD A4-5000, welche rund doppelt so schnell wie der stärkste Verfolger rechnet. Ein Ultrabook mit Haswell-Prozessor und HD Graphics 4400 würde sogar die drei- bis vierfache Performance erreichen.
Ergänzung vom 14.08.2013: Den Kollegen von Mobilegeeks.de ist es gelungen, ein Sony Xperia Z Ultra mit Qualcomms neuem Snapdragon 800 zu ergattern und einige Benchmarks durchzuführen. Vor allem die stark aufgebohrte Adreno 330 zeigt sich von ihrer besten Seite und weist sowohl ihren Vorgänger als auch das Tegra-4-Tablet in die Schranken.
Energiebedarf
Wir haben das Thema Leistungsaufnahme bereits ein paar mal kurz angeschnitten: Jegliche Performance-Werte lassen sich natürlich erst im Kontext zum Verbrauch sinnvoll einordnen. Exakte TDP-Angaben sind bei ARM-SoCs allerdings Mangelware, Gesamtsystem-Messungen aufgrund unterschiedlicher Geräteklassen nur bedingt aussagekräftig.
Glücklicherweise ist es den Kollegen von Anandtech gelungen, relativ exakte Verbrauchswerte für den CPU- und GPU-Teil einiger SoCs zu bestimmen. Anhand dieser Angaben sowie eigener Beobachtungen wollen wir versuchen, eine grobe Einordnung zu treffen.
Limitierender Faktor in beinahe jedem mobilen Gerät ist zunächst einmal die Kühlung. Abhängig von Umgebungstemperatur und Konstruktion können in einem passiven Tablet rund 4 Watt dauerhaft abgeführt werden, bei einem Smartphone je nach Größe etwa 2,5 bis 3 Watt. Das heißt allerdings nicht, dass ein SoC temporär nicht auch deutlich mehr Leistung aufnehmen kann: So taktet Nvidias Tegra 4 bei maximaler CPU-Belastung nur für kurze Zeit mit den vollen 1,8 GHz, was darauf hin deutet, dass bereits in dieser Situation die erwähnten 4 Watt überschritten werden. Ohne Throttling und mit paralleler GPU-Last dürfte der Chip wohl mindestens das Doppelte benötigen. In etwas geringerem Ausmaß müssen allerdings auch Tegra 3 sowie der Snapdragon 600 ihre Taktraten reduzieren – den theoretischen Maximalverbrauch (ohne Throttling) dieser SoCs schätzen wir auf etwa 6 respektive 4 Watt.
Mit besonderer Sparsamkeit glänzen dagegen Intels Atom Z2760 (zu diesem kursieren TDP-Angaben zwischen 1,7 und 3 Watt) sowie der Mediatek MT8125. Dessen vier Cortex-A7-Kerne dürften selbst zusammen kaum so viel Energie benötigen wie ein einzelner Cortex-A15. Ebenso genügsam geht die Grafikeinheit zu Werke, sodass der gesamte SoC bei höchstens 1,5 Watt liegen sollte. Das wäre nur etwa ein Zehntel des schnellsten Probanden in diesem Test, AMDs A4-5000 mit 15 Watt TDP. Übrigens: Viele ARM-SoCs integrieren darüber hinaus noch weitere Features (Modem, WiFi, Camera-ISP), die x86-Modellen im Regelfall fehlen.
Da in realen Anwendungen und Spielen nur selten alle Einheiten perfekt ausgelastet werden, fällt die Leistungsaufnahme – und damit auch mögliches Throttling – in der Praxis natürlich weitaus geringer aus. Zudem spielen hier zusätzliche Energiesparfeatures eine wichtige Rolle: Nvidia setzt auf den seit Tegra 3 bekannten Companion Core, Qualcomm auf eine individuelle Taktung und Spannungsversorgung der einzelnen Kerne, Samsung auf die von ARM entwickelte big.LITTLE-Technik. Insbesondere letztere verspricht in unseren Augen enormes Potential, auch wenn es noch einige Kinderkrankheiten auszumerzen gilt.
Zusammenfassung und Ausblick
Es ist überaus beeindruckend, welche rasante Entwicklung mobile ARM-SoCs in den letzten Jahren vollzogen haben. Noch vor einiger Zeit war selbst der simple Aufruf einer mehr oder weniger komplexen Webseite eine Qual für jedes Mobiltelefon – eine Aufgabe, die moderne Smartphones und Tablets ohne größere Schwierigkeiten meistern. Und das gilt nicht nur für die kostspieligen Topmodelle: Mit günstigen SoCs auf Basis der Cortex-A7-Architektur feiern Unternehmen wie Mediatek überwältigende Erfolge, da die Chips Preis, Leistung und Energieeffizienz in einem stimmigen Gesamtpaket kombinieren. So bietet beispielsweise der 1,2 GHz schnelle MT8125-Quad-Core eine CPU- und GPU-Performance, die sich problemlos mit Nvidias älterem und weitaus energiehungrigeren Tegra 3 messen kann. Unter Auslastung aller vier Kerne ist sogar der x86-Vertreter Atom Z2760 in Reichweite.
Apropos Atom: Nach mittlerweile rund 5 Jahren merkt man der Architektur ihr Alter deutlich an. Dank verschiedener Überarbeitungen, der Integration des Chipsatzes sowie der Umstellung auf einen 32-Nanometer-Prozess kann sich die Energieeffizienz zwar noch immer sehen lassen, die absolute Leistungsfähigkeit bleibt allerdings weit hinter den schnellsten ARM-Lösungen zurück. Es scheint, als wolle Intel diesen Rückstand nun mit aller Kraft wieder aufholen: In wenigen Wochen sollen die neuen Silvermont-Kerne debütieren, die dank Out-of-Order-Design und höheren Taktraten einen stattlichen Leistungssprung versprechen. Bereits im kommenden Jahr folgt dann der Nachfolger in 14-Nanometer-Technik – in einem Markt, der vor allem vom Faktor Performance/Watt beherrscht wird, ein unschätzbarer Vorteil gegenüber der Konkurrenz. So werden die ebenfalls für 2014 erwarteten AMD-Chips Mullins und Beema, die Temash und Kabini ablösen, wohl weiterhin in 28 Nanometern gefertigt.
Intels härtester Gegner wird darum zukünftig vermutlich Qualcomm heißen. Das Unternehmen, welches noch vor kurzem nur Insidern ein Begriff war, erwirtschaftet mittlerweile Milliardengewinne und wird an der Börse höher bewertet als der Erfinder von Pentium & Co. All das hat seinen Grund: Vor allem im mittleren und oberen Preissegment beherrscht Qualcomm das boomende Smartphone-Geschäft, während Intel hier nur auf einen verschwindend geringen Marktanteil kommt. Mit dem in Korea bereits erhältlichen Snapdragon 800 dürfte der Hersteller seine Vormachtstellung weiter ausbauen: Der mit 2,3 GHz taktende Nachfolger des Snapdragon 600 verspricht eine erneut stark verbesserte CPU- und GPU-Performance und soll überdies so sparsam sein, dass auch ein Einsatz in Smartphones möglich ist; bei Nvidias ähnlich flottem Tegra 4 dürfte das mit noch stärkerem Throttling verbunden sein. Für diesen Zweck bietet sich darum eher das kommende Schwestermodell Tegra 4i an, welches zudem mit einem integrierten LTE-Modem punktet.
Im schnellebigen SoC-Geschäft ist all das aber nur eine Momentaufnahme – schon in den nächsten Monaten werden die Karten wieder neu gemischt. Neben dem zuvor erwähnten Snapdragon 800 von Qualcomm werden auch der neue Samsung Exynos 5420, Mediateks Octa-Core MT6592 sowie der bereits für Anfang 2014 angekündigte Tegra 5 (Logan) mit großer Spannung erwartet. Der nächste grundlegende Umbruch erwartet uns dann mit dem für 2014/2015 erwarteten Start der ersten ARMv8-Architekturen (Cotrex-A53/A57 als Nachfolger des Cortex-A7/A15), die erstmals mit 64-Bit-Unterstützung aufwarten können. Damit eröffnen sich ganz neue Geschäftsfelder: AMD bereits angekündigt, künftig auch ARM-basierte Serverprozessoren anbieten zu wollen. Wann man ARM-Chips auch auf breiter Front in PCs oder Notebooks findet, könnte damit nur noch eine Frage der Zeit sein – und des Betriebssystemes: Der fehlende Erfolg von Windows RT ist derzeit wohl das größte Hemmnis für eine weitere Expansion in diesem Bereich. Alternativen wie Googles Chrome OS wittern bereits ihre Chance...