Smartwatch-Tests: Wo wir und andere Medien an die Grenzen stoßen und was das für die Praxis bedeutet
Silvio Werner Veröffentlicht am
Messwerte begegnen uns jeden Tag - sei es eine Länge, eine Temperatur oder eine Helligkeitsangabe eines Displays. Mit der Metrologie gibt es dabei eine eigene Wissenschaft, die sich mit dem Messen beschäftigt. Was wie ein trockenes Thema klingt, kann auch für den technisch interessierten Nutzer relevant sein, beispielsweise, wenn der Performance-Unterschied zweier Prozessoren „in der Messunsicherheit verschwindet“ oder sich eine Abweichung der Messung der Herzfrequenz bei genauerem Blick als irrelevant darstellt. In diesem Artikel geben wir einen kleinen Einblick in verschiedene Begriffe und Konzepte.
Der Begriff der Genauigkeit
In der Alltagssprache haben die meisten Personen wahrscheinlich eine recht konkrete Vorstellung vom Begriff der „Genauigkeit“. Diese kann etwa mit dem Begriff der „Präzision“ gleichgesetzt werden. Ist eine Angabe genau, so wird diese als „richtig“ oder „korrekt“ wahrgenommen. Im Alltag ist diese eher unspezifische Nutzung der Begriff in den meisten Fällen wenig problematisch. Ausgedrückt dürfte damit im Regelfall werden, dass die Messungenauigkeit einer Angabe ausreichend ist - also den Anforderungen genügt. Tatsächlich verbergen sich hinter dem Begriff der „Genauigkeit“ zwei Konzepte, deren einzelne Betrachtung lohnenswert ist und beispielsweise auch auf unsere Tests und deren Interpretation einen Einfluss hat. Die beiden Elemente heißen Präzision und Genauigkeit.
Präzision - durch Wiederholungsmessungen leicht zu bestimmen
Die Präzision beschreibt, wie sehr die Messwerte bei wiederholten Messungen voneinander abweichen. Man stelle sich einen zehnmal wiederholten Wägevorgang eines Gewichts an der identischen Waage durch eine Person vor: Sind die Werte alle identisch, ist die Präzision sehr hoch, angegeben wird die Präzision als Standardabweichung. Streuen die Einzelwerte sehr stark, ist die Präzision entsprechend gering.
Im geschilderten Beispiel handelt es sich um die Wiederholpräzision. Die Vergleichspräzision wäre hingegen die Messung an unterschiedlichen Tagen durch unterschiedliche Personen. Bei unseren Smartwatch-Messungen von Blutdruck, Sauerstoffsättigungen und Herzfrequenz wird die Wiederholpräzision bestimmt. Wichtig ist in diesem Fall: Der Prüfgegenstand darf sich zwischendurch natürlich nicht verändern, in der Praxis ist es damit nicht sinnvoll, die Pulsmessung nach einer sportlichen Aktivität und bei einem aktuell noch sinkenden Puls vorzunehmen - oder Wasser (zur Kalibrierung einer µL-Pipette) zu wägen, wenn die Verdunstung des Wassers nicht mit einer Verdunstungsfalle ausgeschlossen werden kann. Mit einer Wiederholungsmessung lässt sich der zufällige Fehler einer Messung bestimmen, welcher dann als Standardabweichung angegeben wird.
Richtigkeit - der echten Abweichung auf den Zahn gefühlt
Lässt sich die Präzision bei bloßer Verfügbarkeit des zu testenden Geräts durch eine recht einfach durchzuführende Mehrfachbestimmung quantifizieren, ist dies bei der Richtigkeit nicht der Fall. Die Richtigkeit einer Messung gibt an, wie sehr ein Messwert vom wahren Wert abweicht. Zeigt eine Waage dementsprechend eine stark abweichende Masse an, als für das Referenzgewicht im Rahmen einer Zertifizierung festgestellt wurde, ist die Messung unrichtig. Während die Präzision den zufälligen Fehler abgibt, beschreibt die Richtigkeit den systematischen Fehler. Gibt es eben für Waagen Referenzgewichte (Normale), stoßen wir beim Test von Sensoren für Vitaldaten deutlich an Grenzen: Eine Referenzmethode für die Messung des Blutdrucks ist uns faktisch nicht zugänglich, die Blutgasanalyse zur direkten Messung der Sauerstoffsättigung im Blut nicht praktikabel. Am ehesten wäre noch die Überprüfung der Herzfrequenz möglich: So messen Wearables mit einer optischen Sensorik genau genommen nicht die Herzfrequenz, sondern die Pulsfrequenz. Mit einem Elektrokardiogramm ist die Herzfrequenz durch die Aufzeichnung der elektrischen Aktivitäten des Herzens genau zugänglich. Der Puls lässt sich ebenfalls manuell messen - mit Finger und Stoppuhr.
Auswirkungen in der Praxis
In der Praxis lassen sich Verfahren mit einer geringen Richtigkeit, aber einer hohen Präzision nicht selten trotzdem einsetzen. Ist der systematische Fehler - also die mangelhafte Richtigkeit - über den Messbereich gleichbleibend oder mathematisch zu beschreiben, kann dieser ausgeglichen werden. Zieht eine Pipette immer ein zu geringes Volumen auf, kann eine solche justiert werden, dazu wird im einfachsten Fall eine Schraube gedreht. Moderne Messgeräte können eine solche Justierung auf Ebene der Datenverarbeitung vornehmen. An dieser Stelle soll darauf hingewiesen werden, dass bisweilen die Begriffe Kalibrierung und Justierung synonym verwendet werden, was allerdings vermieden werden sollte.
Die Analyse des systematischen und zufälligen Fehlers kann genutzt werden, um die Messunsicherheit eines Verfahrens zu berechnen. Diese Messunsicherheit beschreibt dann meist, in welchem Bereich um den Messwert der wahre Wert mit einer Wahrscheinlichkeit von (meist) 95 Prozent befindet. In der Praxis wird dieser Wert noch mit einem Sicherheitsfaktor multipliziert. Ob eine Messunsicherheit nun akzeptabel ist oder nicht, ist vom Verfahren abhängig, also beispielsweise einer behördlichen Forderung an die Genauigkeit einer Waage in einem Supermarkt oder der Anforderung eines Kunden für die genaue Analyse der Herzfrequenz. Ein Beispiel aus der Praxis zeigt, wie hoch erweiterte Messunsicherheiten in der Praxis und bei komplexeren Analysen angesetzt werden können: In einem Beschluss des VG Würzburg (W 8 E 23.353, 06.04.2023) für die Analyse eines Rückstands eines Pflanzenschutzmittels werden 50 Prozent genannt, für die rechtliche Beurteilung ist dann auch die untere Grenze des Streubereichs ausschlaggebend. Solche umfangreichen Messverfahren der Ultraspurenanalytik sind mit einer einfachen Messung, wie sie etwa optische Sensoren bieten, freilich nicht zu vergleichen, belegen aber die Bedeutung der korrekten Analyse der Verfahrensparameter.
Der wahre Wert ist für uns nicht selten ein Problem
Unser Problem bei den Messungen von Vitalfunktionen: Wir haben keinen Zugriff auf die wahren Werte. Unsere als Referenzgeräte genutzten Systeme sind nicht zwangsläufig genauer als die zu prüfenden Testgeräte. Als erstes Beispiel soll hier der Test der Blutdruckmessung der Huawei Watch D2 genauer betrachtet werden.
Angaben in mmHg | M1 | M2 | M3 |
Referenz Braun ExactFit 5 Connect | 131 / 86 | 131 / 84 | 132 / 86 |
Testgerät Huawei Watch D2 | 132 / 79 | 133 / 78 | 132 / 82 |
Die Messwerte des systolischen Drucks weichen um maximal 2 mmHg ab, die diastolischen Werte um bis zu 7 mmHg. Betrachten wir den Mittelwert, liegt die Abweichung bei 5,6 mmHg - oder prozentual bei rund 7 Prozent. Man könnte also sagen: So wirklich genau ist die Huawei Watch D2 nicht. Korrekt ist aber: Die Messwerte entsprechen den Erwartungen und geben keinen Anlass dazu, die Präzision der Huawei Watch D2 infrage zu stellen.
Klar wird dies, wenn man die Spezifikationen sowohl des Braun ExactFit 5 Connect als auch der Huawei Watch D2 betrachtet: Angegeben wird eine Genauigkeit von jeweils ± 3 mmHg. Vereinfacht gesprochen: Liegt der wahre Wert bei 60 mmHg, könnte das eine Messgerät einen Wert von 57 mmHg anzeigen und das andere von 63 mmHg - und beide Messgeräte würden ihre angegebene Genauigkeit beziehungsweise Messunsicherheit nicht überschreiten. Tatsächlich wäre es uns auch bei einer größeren Abweichung nicht möglich, ein Testmuster abzuwerten, da wir nicht belegen können, dass das Referenzgerät denn (noch) genaue Messwerte produziert. Stimmen die beiden Messwerte wie in diesem Fall gut überein, können wir immerhin mit einer relativen Sicherheit davon ausgehen, dass keines der beiden Geräte defekt ist oder wir die Messung fehlerhaft durchgeführt haben.
In völliger Analogie gilt dieser Sachverhalt für den Sauerstoffgehalt und die Herzfrequenz. Das genutzte Pulsoximeter 1 von Braun misst bei Werten zwischen 80 und 100 Prozent auf 2 Prozent genau. Der als Referenzwert genutzte H10-Brustsensor von Polar ist schon gar kein Medizinprodukt mehr. Die Schlafüberwachung können wir - wenn überhaupt - ebenfalls nur näherungsweise etwa auf die Übereinstimmung der Einschlaf- und Aufwachzeiten bewerten. Ob die Schlafphasen denn auch korrekt erkannt werden, würde mindestens eine Polygrafie benötigen. Studien zeigen, dass die Güte der Überwachung der Schlafqualität zwischen verschiedenen Wearables abweicht.
Die Zertifizierung als Medizinprodukt - wie sie durchaus so einige Wearables mitbringen - ist generell als sehr, sehr starkes Signal für eine genaue Messung zu bewerten. Die Güte der Messung und die Übereinstimmung mit den Anforderungen der ISO 81060-2:2018 für die Messung des Blutdrucks etwa wird im Rahmen von klinischen Studien nachgewiesen. Diese Zertifizierungen sind keine Geheimnisse, selbiges gilt im Regelfall für die entsprechenden Studien - diese sind für unzählige Geräte online zu finden und gegeben einen etwas detaillierten Einblick, für die Huawei Watch D sind beispielsweise mehrere Studien einsehbar.
Präzision und Richtigkeit sind nicht alles
Der Vollständigkeit halber wollen wir noch auf ein paar Einzelaspekte hinweisen, die für ein praktisches Verständnis der Metrologie durchaus relevant sind. So haben wir uns in diesem Artikel auf systematische und zufällige Fehler beschränkt, allerdings gibt es quasi noch eine weitere Fehlerart: nämlich grobe Fehler. Diese können unter anderem durch den die Messung Ausführenden bedingt sein, etwa, wenn ein Blutdruckmessgerät für das Handgelenk - wie die Huawei Watch D2 - nicht auf Herzhöhe gehalten wird oder die Messungen des Referenz- und Testgeräts an unterschiedlichen Armen vorgenommen werden.
Ein weiterer Faktor: Parameter zur Genauigkeit einer Messung beziehen sich immer auf einen Messbereich. Beispielsweise kann mit einer Waage ein Gewicht, welches grundsätzlich anzeigbar wäre, auch nicht immer mit der geforderten Genauigkeit gemessen werden. Die Messung eines extrem kleinen oder großen Blutdrucks ist auch nicht möglich, in Bezug auf ABPM (Automatic Blood Pressure Measurement) schreibt Huawei für die Watch D2: „ABPM ist geeignet für Personen, deren höchster Blutdruck im Durchschnitt bei 120 mmHg oder darüber liegt oder deren niedrigster Blutdruck im Durchschnitt bei 80 mmHg oder darüber liegt, sowie für Personen, deren Arzt ABPM empfiehlt.“, was in Bezug auf die Blutdruckmesswerte eine (in der Praxis nicht unbedingt relevante Einschränkung) darstellt. Die Apple Watch unterstützt beispielsweise die Messung der Herzfrequenz in einem Bereich von 30 bis 210 Schlägen in der Minute - und deckt damit den physiologischen Bereich vollständig ab. Bei unseren Tests von Smartwatches hat der Messbereich ebenfalls eine Bedeutung: Wir überprüfen beispielsweise die Messung der Herzfrequenz nicht mit mehreren Datenpunkten über den gesamten Messbereich, sondern meist nur durch eine Mehrfachmessung einer Herzfrequenz. Beim Test der iHEAL 6 war dies besonders relevant: Dass die Smartwatch den Blutzucker gar nicht misst, konnten wir nur nachweisen, da wir nicht nur Messwerte im physiologischen und bei stoffwechselgesunden Personen kleinen Bereich gemessen haben, sondern auch pathologische Werte prüfen konnten.
Die Genauigkeit ist in der Praxis nicht das einzige relevante Parameter für die Auswahl eines Messsystems. Wenig überraschend würde man - andere Faktoren erst einmal nicht betrachtet - das günstigste System benutzen, welches die Forderungen in Bezug auf die Genauigkeit erfüllt. Mit der Robustheit gibt es dann noch einen weiteren Faktor. Von einer robusten Messmethode spricht man, wenn sich die Messwerte durch kleinere Abweichungen im Handling oder den Umweltbedingungen nicht stark verändern. In einem (wohlgemerkt etwas konstruierten) Beispiel würde man sich wahrscheinlich für eine noch hinreichende genaue, von Temperaturschwankungen unbeeindruckte Waage entscheiden, wenn man eine Waage für den Außenbereich sucht und die genauere Waage auf Temperaturschwankungen eher empfindlich reagiert. Bezogen auf die Blutdruckmessung könnte man die Messung am Oberarm tendenziell als robuster einschätzen, da das Messgerät wie gefordert immerhin schon auf Herzhöhe ist.