reasoning_effort Parameter nachträglich in Mistral API dokumentiert
Konfigurierbarer Reasoning-Effort vereinfacht Stack-Design — ein Modell statt drei reduziert VRAM-Footprint und Routing-Komplexität in Dify/Open WebUI.
Mistral Small 4 wurde 16.03.2026 als erstes vereinheitlichtes Modell veröffentlicht — ersetzt getrennte Linien Magistral (Reasoning), Pixtral (Multimodal) und Devstral (Coding) durch einzelnes MoE mit konfigurierbarem reasoning_effort. Architektur: 119B Total / 128 Experten / 4 aktive pro Token (~6B aktive Parameter), 256k Context, multimodal (Text+Image In, Text Out). Apache 2.0, voll Open Weights auf HF (mistralai/Mistral-Small-4-119B-2603, ~242 GB). Mistral-Angaben: 40% weniger E2E-Latenz, 3× höherer Durchsatz vs Small 3; LiveCodeBench schlägt GPT-OSS 120B mit 20% kürzerem Output. GPQA Diamond 71.2%.
Mistral AI wichtigster europäischer Open-Weight-Modellhersteller (Frankreich, GDPR-freundlich). 'Small'-Linie kompakt unterhalb Mistral Large/Medium. Mit Small 4 Architektur-Sprung von Dense (24B) zu Sparse-MoE — vergleichbar mit DeepSeek/Qwen3-Strategie.
Konfigurierbarer Reasoning-Effort vereinfacht Stack-Design — ein Modell statt drei reduziert VRAM-Footprint und Routing-Komplexität in Dify/Open WebUI.
DIREKT relevant für razzfazz.ai Distribution — Apache 2.0 Open-Weight konkurriert mit Qwen3/DeepSeek. ABER 242 GB Full-Precision passen nicht in 128 GB Unified Memory → NVFP4 (NVIDIA-spezifisch) oder llama.cpp Q4_K_M (~60 GB) zwingend. MoE-Sparsity (6B aktiv) macht es trotz Größe schnell — passt zu Vulkan-Backend.
Mehrere Quantisierungs-Pfade = flexible Deployment-Optionen. NVFP4 irrelevant für AMD-Box. Eagle-Speculative-Decoding mittelfristig interessant wenn vLLM-Support auf ROCm/Vulkan reift.