Google öffnet seine KI: Gemma 4 bringt leistungsstarke Open-Modelle für PCs und Smartphones
Google hat mit Gemma 4 eine neue Generation seiner offenen KI-Modelle vorgestellt. Die Modelle basieren auf der gleichen Forschung wie Googles Gemini-Modelle, sind jedoch speziell für den Einsatz auf lokaler Hardware optimiert – von Smartphones über Raspberry-Pi-Boards bis hin zu leistungsstarken Workstations.
Besonders wichtig: Google verabschiedet sich von seiner bisherigen Speziallizenz. Gemma 4 erscheint unter der deutlich freieren Apache-2.0-Lizenz. Entwickler können die Modelle damit einfacher kommerziell einsetzen und anpassen.
Vier Modellvarianten für unterschiedliche Hardware
Gemma 4 erscheint in vier Größen, die jeweils auf verschiedene Geräteklassen zugeschnitten sind:
- E2B – kompakte Variante für Smartphones und IoT
- E4B – leistungsfähigeres Edge-Modell
- 26B Mixture-of-Experts – optimiert für Geschwindigkeit
- 31B Dense – höchste Modellqualität
Die großen Varianten können laut Google sogar komplett lokal betrieben werden. Unquantisierte Versionen laufen auf einer NVIDIA H100 GPU, während quantisierte Varianten auch auf Consumer-Grafikkarten funktionieren.
Mehr Leistung bei weniger Parametern
Google betont besonders das Verhältnis von Leistung zu Modellgröße. Laut Arena-Benchmark liegt das Gemma-31B-Modell aktuell auf Platz drei der weltweit leistungsfähigsten offenen KI-Modelle – und schlägt dabei teilweise Modelle, die bis zu 20-mal größer sind.
Das 26B-MoE-Modell nutzt eine sogenannte Mixture-of-Experts-Architektur. Dabei werden während der Verarbeitung nur rund 3,8 Milliarden Parameter aktiv, obwohl das Modell insgesamt 26 Milliarden Parameter besitzt. Das sorgt für deutlich höhere Verarbeitungsgeschwindigkeit.
KI-Agenten und Automatisierung im Fokus
Gemma 4 wurde nicht nur für klassische Chat-Anwendungen entwickelt. Die Modelle unterstützen Funktionen, die besonders für moderne KI-Agenten wichtig sind:
- Native Function-Calling
- Strukturierte JSON-Antworten
- Integration von APIs und Tools
- Verbesserte Code-Generierung
Damit können Entwickler automatisierte Workflows bauen, bei denen KI-Agenten Aufgaben eigenständig planen und ausführen.
Edge-Modelle für Smartphones und IoT
Die kleineren Varianten E2B und E4B wurden speziell für mobile Geräte entwickelt. Sie laufen komplett offline mit sehr geringer Latenz und sind auf minimale Speicher- und Energieanforderungen optimiert.
Diese Modelle bilden auch die Grundlage für die nächste Generation von Gemini Nano, die direkt auf Android-Smartphones eingesetzt wird – etwa für Spam-Erkennung, Gesprächszusammenfassungen oder lokale KI-Funktionen.
Große Kontextfenster und multimodale Fähigkeiten
Gemma 4 unterstützt deutlich größere Kontextfenster als die Vorgängermodelle. Die Edge-Modelle verarbeiten bis zu 128.000 Tokens, während die großen Varianten bis zu 256.000 Tokens erreichen.
Außerdem unterstützen die Modelle mehrere Datentypen:
- Text
- Bilder und Videos
- Sprach-Input
Damit lassen sich Aufgaben wie OCR, Diagrammanalyse oder Sprachverarbeitung auch lokal durchführen.
Mehr Freiheit für Entwickler
Der Wechsel zur Apache-2.0-Lizenz dürfte für viele Entwickler der wichtigste Punkt sein. Frühere Gemma-Versionen nutzten eine eigene Google-Lizenz, die teilweise als zu restriktiv galt.
Mit Apache 2.0 können Unternehmen die Modelle deutlich freier nutzen, anpassen und in eigene Produkte integrieren.
Die Modelle sind bereits über Plattformen wie Hugging Face, Kaggle, Ollama und Google AI Studio verfügbar.
Originalquelle von Google
Weitere technische Details zur Veröffentlichung beschreibt Google im offiziellen Entwicklerblog:
Gemma 4: Byte for byte, the most capable open models – Google Blog