The Agent Watch

Tägliches Briefing

14. Juni 2026 · 8 Meldungen · 3 Quellen

🔥 Schlagzeilen

Claude Fable 5 stellt neuen Coding-Benchmark-Rekord auf

Anthropic veröffentlichte Claude Fable 5 und erreichte 95 % im SWE-bench — der bisherige Rekord (Opus 4.8 mit 88 %) wurde pulverisiert. 1M Token Kontext, 128K Ausgabe, 91/100 Senior Engineer Score. Preis: 10 $/50 $ pro Million Tokens. Gleichzeitig erschien Claude Mythos 5 für wissenschaftliches Reasoning.

ChatGPT erhält persistentes Gedächtnis — „Dreaming\"-Architektur

OpenAI führte ein neues Speichersystem namens „Dreaming\" (4. Juni) ein, das Kontext über Chat-Sitzungen hinweg synthetisiert. Gedächtnis wird zur Produktinfrastruktur, nicht zur Einstellung. Veralteter oder widersprüchlicher Kontext wird reduziert.

Quelle: kingy.ai →

Open-Source-LLM-Rankings: Kimi K2.6 auf Platz 1, DeepSeek V4 Pro dominiert agentische Aufgaben

Mai-2026-Rankings: Kimi K2.6 und MiMo-V2.5-Pro gleichauf mit AA-Index 54 — nur 3 Punkte hinter proprietären Spitzenreitern. DeepSeek V4 Pro ist Nr. 1 für agentische Arbeit (GDPval-AA Elo 1554, SWE-Bench 80,6 %). 9 große Modelle in 6 Wochen veröffentlicht.

📡 Im Blick behalten

GitHub Copilot wird zur Plattform

Microsoft lieferte eine dichte Welle rund um Copilot: App (erweiterte Vorschau), CLI-Refresh, SDK GA, Cloud/Local-Sandboxes. KI-Coding entwickelt sich von Autovervollständigung zu verwalteten Arbeitssitzungen. Direkter Wettbewerb mit Claude Code und Codex.

Nex N2-Pro — neuer Herausforderer aus dem Stealth-Modus

Nicht-standardisierte Transformer-Architektur für agentische Workflows. Noch zu früh für die Produktion, erhöht aber den Wettbewerbsdruck an der Frontier.

Cohere North Mini Code — kleiner, kostenloser Open-Source-Coder

30B total / 3B aktiv (MoE), Apache-2.0-Lizenz, 256K Kontext. Läuft auf einfacher Hardware. Beste Option für selbstgehostete, schlanke Coding-KI.

Holo3.1 — lokale Computer-Use-Agenten

H Company veröffentlichte Varianten von 0,8B bis 35B auf Hugging Face. Bildschirmsteuerungs-Agenten, die lokal laufen — ein Plus für Datenschutz und Latenz.

Apple Core AI — geräteinterne Stack

Inferenz läuft lokal auf Apple Silicon, Swift-native APIs. Datenschutz first für Gesundheits-/Finanz-Apps. Nur Apple-Ökosystem.

📊 Trend

Der Abstand zwischen Open-Source und proprietären Modellen war noch nie so gering: 3 Indexpunkte. Das Veröffentlichungstempo beschleunigt sich (9 große Modelle in 6 Wochen). Der Kampf verlagert sich vom „besten Modell\" zum „besten Agenten-Ökosystem\".