Konferenz 28.04.2025, 08:18 Uhr

DWX hakt nach: Wie lässt sich das Web zur GenAI-Plattform machen?

Generative-AI-Funktionen in Anwendungen verwenden in der Regel die Cloud, um Anfragen auszuwerten. Doch das muss nicht so sein: Christian Liebel erklärt, wie sich KI-Modelle direkt auf dem Rechner des Anwenders ausführen lassen.

(Quelle: Christian Liebel)

Large Language Models (LLM) brauchen für die Auswertung einer Anfrage viel Rechenpower. Hier kommt die Cloud ins Spiel. Sollen die Daten aber den Rechner nicht verlassen, muss ein lokaler Prozessor die Arbeit übernehmen. DWX Developer Week hat Christian Liebel gefragt, welche Möglichkeiten es hier gibt. Christian ist Experte für die Integration von Generative-AI-Funktionalität in moderne webbasierte Anwendungen. Er ist Mitglied der W3C-Arbeitsgruppen für Machine Learning und Webanwendungen, steuert selbst einen Teil zur Weiterentwicklung des AI-basierten Webs bei und arbeitet bei Thinktecture.

Welche konkreten Anwendungsfälle eignen sich besonders gut für lokal ausgeführte KI-Modelle im Browser?

Christian Liebel: Besonders geeignet sind lokal ausgeführte KI-Modelle für die Szenarien, bei denen keine dauerhafte Internetverbindung vorhanden ist: Zum Beispiel für Außendienstmitarbeiter, die auch in Gebiete mit schwacher Netzabdeckung fahren. Oder wo kein Export der Anwenderdaten in eine Cloud gewünscht ist, etwa für besonders sensible Daten, zum Beispiel aus dem medizinischen Bereich. Doch es gibt auch weitere Gründe: Etwa, um unabhängiger von bestimmten Anbietern sowie Modell- oder API-Änderungen zu sein, garantiert auszuschließen, dass mit den eigenen Daten fremde Modelle trainiert werden, um geopolitischen Problemen aus dem Weg zu gehen oder Gebühren zu vermeiden, die bei Berechnungen in der Cloud anfallen.

Wie schätzt du die zukünftige Rolle der Web Neural Network API (WebNN) im Vergleich zu Cloud-basierten Lösungen ein?

Christian: WebNN erlaubt die effiziente Ausführung von KI-Workloads auf dem Client. Sie erlaubt das Ansprechen von zentraler Recheneinheit (CPU), Grafikrecheneinheit (GPU) und neuronalen Recheneinheiten (NPU) über eine abstrakte Schnittstelle direkt aus dem Browser heraus. Allerdings verfügen Endgeräte in aller Regel über deutlich weniger Rechenleistung und Speicherkapazität als ein Cluster in der Cloud. Die Innovation findet derzeit fast ausschließlich in der Cloud statt, die Inferenz ist dort in der Regel schneller und die Antwortqualität höher. Daher vermute ich, dass mit WebNN eher kleinere, auf den jeweiligen Anwendungsfall genau zugeschnittene Modelle betrieben werden, wohingegen der Weg für anspruchsvollere Szenarien zumindest in absehbarer Zukunft in die Cloud zeigt.

Welche Herausforderungen müssen Entwickler aktuell meistern, wenn sie LLMs lokal auf Geräten einsetzen möchten?

Christian: Die Systemanforderungen an lokale Large Language Modelle sind sehr hoch: Sie belegen je nach Umfang mehrere Gigabyte Speicherplatz, benötigen eine leistungsstarke Grafikkarte oder neuronale Recheneinheit und viel Arbeitsspeicher. Das erfordert leistungsstarke Endgeräte, die sich noch nicht in jeder Hosentasche befinden. Um Speicherplatz zu sparen, werden gerne kleinere LLMs eingesetzt, die dann aber nicht die von den großen Cloudmodellen bekannte Antwortqualität liefern können. Aber das Feld bewegt sich bereits: Geräte werden leistungsfähiger, mit NPUs ausgestattet und auf den ersten Geräten liefern Plattformhersteller bereits eigene LLMs mit aus: Man denke an Apple Intelligence auf den neuesten iPhones oder Gemini Nano auf aktuellen Android-Geräten.

Wer mehr erfahren will, sollte die DWX Developer Week besuchen und dem Vortrag von Christian am 1. Juli 2025 um 16.00 Uhr im m:con Rosengarten in Mannheim beiwohnen. Alle Informationen zur DWX Developer Week gibt es auf www.developer-week.de.