🤖 Open Source AI Modelle

🆕 Mistral Small 4

Mistral Small 4 wurde 16.03.2026 als erstes vereinheitlichtes Modell veröffentlicht — ersetzt getrennte Linien Magistral (Reasoning), Pixtral (Multimodal) und Devstral (Coding) durch einzelnes MoE mit konfigurierbarem reasoning_effort. Architektur: 119B Total / 128 Experten / 4 aktive pro Token (~6B aktive Parameter), 256k Context, multimodal (Text+Image In, Text Out). Apache 2.0, voll Open Weights auf HF (mistralai/Mistral-Small-4-119B-2603, ~242 GB). Mistral-Angaben: 40% weniger E2E-Latenz, 3× höherer Durchsatz vs Small 3; LiveCodeBench schlägt GPT-OSS 120B mit 20% kürzerem Output. GPQA Diamond 71.2%.

Mistral AI wichtigster europäischer Open-Weight-Modellhersteller (Frankreich, GDPR-freundlich). 'Small'-Linie kompakt unterhalb Mistral Large/Medium. Mit Small 4 Architektur-Sprung von Dense (24B) zu Sparse-MoE — vergleichbar mit DeepSeek/Qwen3-Strategie.

3 News · Letzte: 2026-03-23 📡 RSS

News-Verlauf

23.03.2026 ·Simon Willison·erfasst 22.05.2026

reasoning_effort Parameter nachträglich in Mistral API dokumentiert

Bei Launch am 16.03. fehlte Parameter in offizieller API-Doku. Am 23.03. nachgereicht — Werte: 'none' (schnelle Antworten, kein Chain-of-Thought) und 'high' (verbose Reasoning vergleichbar mit Magistral). Pro Request entscheiden ob Latenz oder Reasoning-Qualität priorisiert wird — ähnlich OpenAI reasoning.effort oder Anthropic Extended Thinking. Für razzfazz.ai: ein Modell für beide Workloads.

Konfigurierbarer Reasoning-Effort vereinfacht Stack-Design — ein Modell statt drei reduziert VRAM-Footprint und Routing-Komplexität in Dify/Open WebUI.

16.03.2026 ·Mistral AI Blog·erfasst 22.05.2026

Mistral Small 4 released — 119B MoE, 6B aktive Parameter, Apache 2.0

Erstes unified MoE-Modell. 119B Total, 128 Experten, 4 aktive pro Token (~6B aktiv, 8B inkl. Embedding/Output), 256k Context, multimodal Text+Image. Function Calling und JSON-Output nativ. Modell-IDs HF: Mistral-Small-4-119B-2603 (242 GB) und -NVFP4 (4-bit für NVIDIA Blackwell). Inference: vLLM (FLASH_ATTN_MLA), llama.cpp, LM Studio, SGLang, Transformers. Benchmarks (Mistral): LiveCodeBench > GPT-OSS 120B bei 20% weniger Output, GPQA Diamond 71.2%, AIME 2025 auf GPT-OSS-120B-Niveau. Latency: 40% schneller als Small 3. Throughput: 3× mehr Req/s. API $0.15/1M Input. Apache 2.0 — kommerziell uneingeschränkt.

DIREKT relevant für razzfazz.ai Distribution — Apache 2.0 Open-Weight konkurriert mit Qwen3/DeepSeek. ABER 242 GB Full-Precision passen nicht in 128 GB Unified Memory → NVFP4 (NVIDIA-spezifisch) oder llama.cpp Q4_K_M (~60 GB) zwingend. MoE-Sparsity (6B aktiv) macht es trotz Größe schnell — passt zu Vulkan-Backend.

16.03.2026 ·HuggingFace·erfasst 22.05.2026

Mistral Small 4 NVFP4-Variante & Speculative-Decoding 'Eagle' auf HF

Zusätzlich zum Hauptmodell: Mistral-Small-4-119B-2603-NVFP4 (NVIDIA FP4-Quantisierung für Blackwell, ~25% Original-Größe bei minimalem Qualitätsverlust) und -eagle (Eagle-Speculative-Decoding-Heads für 2-3× schnelleren Inference auf vLLM). Mistral deckt gesamtes Deployment-Spektrum ab — Datacenter (Blackwell + NVFP4) bis Consumer-GPUs via community GGUF-Quants. Für AMD/Strix Halo: NVFP4 irrelevant, llama.cpp Q-Quants Vulkan-kompatibel.

Mehrere Quantisierungs-Pfade = flexible Deployment-Optionen. NVFP4 irrelevant für AMD-Box. Eagle-Speculative-Decoding mittelfristig interessant wenn vLLM-Support auf ROCm/Vulkan reift.

← zurück zum Dashboard