KI nutzen ohne High-End-Hardware oder Internetzugang
Es wäre sicher nicht das erste große Sprachmodell, das auf einer limitierten Umgebung funktioniert. In der Regel geht dies jedoch mit erheblichen Einschränkungen bei der Funktionalität einher. Abseits einfacher Textauswertung gibt es kaum Möglichkeit, das Potential von künstlicher Intelligenz lokal zu nutzen.
Stattdessen werden die Anfragen an die Server der jeweiligen Unternehmen übermittelt und dort in ihrer ganzen Komplexität bearbeitet. Das erfordert nicht nur eine zuverlässige Internetverbindung auf der einen Seite, sondern auch enorme Rechenkapazitäten und unverhältnismäßig viele Ressourcen auf der anderen Seite. Fast 3 Wattstunden sollen bei einer einzelnen Antwort benötigt werden, zumindest laut Angaben von ChatGPT.
Dass es Forschenden der Princeton University und Stanford University nun gelungen ist, mit wesentlich bescheidenerer Hardware und deutlich geringerem Ressourcenverbrauch auszukommen, liegt an der Kombination zweier Methoden, die bei großen Sprachmodellen so noch nicht gemeinsam verwendet wurden. Als grundlegendes System wurden sowohl Llama 2 als auch Llama 3 eingesetzt.
Zunächst wurden die trainierten Daten, die typischerweise in Form von Matrizen angeordnet sind, auf Redundanzen geprüft, um die Masse ohne nennenswerten Informationsverlust zu verringern. Anschließend wurden die verbliebenen Daten komprimiert, was die Antwort etwas ungenauer, aber selten weniger zutreffend macht. Das Vorgehen nennt sich "low precision", also eine Verringerung der Genauigkeit des Systems.
Dazu kommt ein zweites Verfahren namens "low rank". Damit ist ein mathematisches Prinzip gemeint, bei dem eine große Matrix durch eine kleinere von geringerem Rang approximiert wird. Trotz geringerer Größe und damit weniger Informationen bleiben die Ergebnisse nach Berechnung mit der kleineren Matrix dieselben - meistens. Dieser zweite Schritt betrifft den Weg, den die Frage innerhalb des Systems nimmt, um eine zutreffende Antwort zu finden.
Ein paar Einschränkungen dieser rein lokal nutzbaren KI soll es aber noch geben. Vor allem mobile Geräte werden dennoch am Rande ihrer Leistungsgrenze arbeiten, um ihre Antwort auszuspucken. Mit einer typischen Gamer-GPU dürfte es schon etwas funktionieren. Die nötigen Informationen zur Funktionsweise finden sich bei GitHub.