🤖 Open Source AI Modelle

🆕 Gemma 4

Google DeepMind hat am 02.04.2026 Gemma 4 veröffentlicht — vierte Generation der offenen Gemma-Modellfamilie, auf gleicher Forschung wie Gemini 3. Vier Varianten: E2B (2.3B effective), E4B (4.5B effective), 26B A4B (MoE mit 4B aktiv) und 31B Dense. Context bis 256K Tokens, native Multimodalität (Text/Bild/Video alle Modelle, Audio nur E2B/E4B), 140+ Sprachen. **WICHTIGSTE Änderung: Apache 2.0 Lizenz** — endlich keine Gemma-spezifischen Restriktionen, voll kommerziell nutzbar ohne MAU-Limits. 31B-Modell rangiert #3 auf LMArena Open-Model-Leaderboard mit ~1452 Elo. Day-0-Support für llama.cpp, MLX, transformers, mistral.rs, LM Studio, Ollama.

Gemma ist Googles offene Modellfamilie als Gegenstück zu Llama (Meta) und Qwen (Alibaba). Wechsel zu Apache 2.0 ist eigentlicher Game-Changer für kommerzielle Deployments. E-Modelle nutzen Per-Layer Embeddings und Shared KV Cache → effektive RAM-Footprints deutlich unter Total-Parametern.

3 News · Letzte: 2026-04-15 📡 RSS

News-Verlauf

15.04.2026 ·Android Developers Blog·erfasst 22.05.2026

Gemma 4 in Android AICore Developer Preview verfügbar

Google integriert Gemma 4 (E2B/E4B) in Android System AICore Service — Apps können geräteübergreifend offline Inferenz nutzen. Vision und Audio (E2B/E4B) nativ supported. Erste Pixel-Geräte als Developer Preview, Rollout auf weitere OEMs H2/2026. Function-Calling und JSON-Output direkt im AICore-API exponiert — relevant für agentische On-Device-Workflows. Vergleich zu Gemma 3n: doppelter Context, +15 Punkte MMLU Pro für E4B.

Für razzfazz.ai weniger relevant (Server-Stack), aber wichtiges Signal: Google pusht Gemma als On-Device-Standard.

03.04.2026 ·Hugging Face Blog·erfasst 22.05.2026

Day-0 Support in llama.cpp, MLX, LM Studio und Ollama

Direkt am Folgetag: GGUF-Quants (Q4_K_M und alle Präzisionen). llama.cpp-Server mit OpenAI-kompatibler API ready, MLX mit voller Multimodal-Unterstützung inkl. TurboQuant (~4× weniger aktiver Memory). mistral.rs unterstützt alle Modalitäten + Tool-Calling. Speculative-Decoding-Drafter für alle vier Größen mit bis zu ~3× End-to-End-Speedup. Hardware: E2B ~10GB GPU, E4B ~16GB, 26B A4B nur ~8GB aktiv (MoE-Vorteil), 31B ~62GB GPU oder 96GB+ CPU-RAM.

DIREKT deploybar auf razzfazz.ai Box (128 GB, ROCm 7.2). 26B A4B MoE besonders interessant: 4B aktive Parameter bei Qualität nahe 31B Dense — perfekter Fit. Sollte auf llama-box-vulkan-custom und llama-box-rocm-custom getestet werden.

02.04.2026 ·Google Blog·erfasst 22.05.2026

Gemma 4 offiziell veröffentlicht — Apache 2.0 Lizenz und vier Modellgrößen

Vier Varianten: E2B (2.3B effective / 5.1B total), E4B (4.5B effective / 8B total), 26B A4B (MoE, 4B aktiv) und 31B Dense. Alle multimodal Text/Bild/Video, E2B/E4B mit Audio. Context: 128K für Edge, 256K für 26B/31B. 140+ Sprachen. Architektur: alternierende Attention (sliding 512-1024 + global), Dual RoPE, Per-Layer Embeddings (PLE), Shared KV Cache, USM-style Conformer Audio Encoder. Benchmarks (31B IT): MMLU Pro 85.2%, AIME 2026 89.2%, GPQA Diamond 84.3%, LiveCodeBench v6 80.0%, Codeforces ELO 2150, MMMU Pro 76.9%. 26B A4B: MMLU Pro 82.6%, AIME 88.3%. **LIZENZWECHSEL:** weg von 'Gemma Terms of Use', hin zu Apache 2.0.

**HOCHRELEVANT für razzfazz.ai.** Apache 2.0 beseitigt letzte rechtliche Hürde für Gemma in kommerziellen Box-Deployments — bisher war Gemma wegen Custom-Lizenz problematisch für Kunden wie WKO/PSA/CareSolutions. 26B A4B MoE könnte neues Default-Modell für die Box werden.

← zurück zum Dashboard