The Agent Watch

Briefing

14. juni 2026 · 8 nyheder · 3 kilder

🔥 Overskrifter

Claude Fable 5 sætter ny kodningsbenchmark-rekord

Anthropic udgav Claude Fable 5 og opnåede 95% på SWE-bench — og slog den tidligere rekord (Opus 4.8 med 88%). 1M token kontekst, 128K output, Senior Engineer-score 91/100. Pris: $10/$50 pr. million tokens. Samtidig udgivelse af Claude Mythos 5 til videnskabelig ræsonnering.

ChatGPT får vedvarende hukommelse — "Dreaming"-arkitektur

OpenAI implementerede et nyt hukommelsessystem kaldet "Dreaming" (4. juni), der syntetiserer kontekst på tværs af chatsessioner. Hukommelse bliver produktinfrastruktur, ikke en indstilling. Forældet eller modstridende kontekst reduceres.

Open-source LLM-rangeringer: Kimi K2.6 på førstepladsen, DeepSeek V4 Pro dominerer agentopgaver

Rangeringer maj 2026: Kimi K2.6 og MiMo-V2.5-Pro uafgjort med AA-indeks 54 — kun 3 point under closed-source-lederne. DeepSeek V4 Pro er nr. 1 til agentarbejde (GDPval-AA Elo 1554, SWE-Bench 80,6%). 9 store modeller udgivet på 6 uger.

📡 Hold øje med

GitHub Copilot bliver en platform

Microsoft leverede en tæt bølge omkring Copilot: app (udvidet preview), CLI-opdatering, SDK GA, cloud/lokale sandkasser. AI-kodning bevæger sig fra autofuldførelse til administrerede arbejdssessioner. Direkte konkurrence med Claude Code og Codex.

Nex N2-Pro — ny udfordrer fra stealth

Ikke-standard transformer-arkitektur rettet mod agentarbejdsgange. For tidligt til produktion, men tilføjer konkurrencepres ved frontlinjen.

Cohere North Mini Code — lille, gratis, open-source-koder

30B i alt / 3B aktive (MoE), Apache 2.0-licens, 256K kontekst. Kører på beskeden hardware. Bedste mulighed for selvhostet letvægtskodnings-AI.

Holo3.1 — lokale computerstyringsagenter

H Company udgav varianter fra 0,8B til 35B på Hugging Face. Skærmstyringsagenter, der kører lokalt — fordel i privatliv og latenstid.

Apple Core AI — enhedsbaseret stack

Inferens kører lokalt på Apple Silicon, Swift-native API'er. Privatliv først for sundheds-/finansapps. Kun Apple-økosystem.

📊 Tendens

Afstanden mellem open-source og closed-source har aldrig været mindre: 3 indekspoint. Udgivelsestempoet accelererer (9 store modeller på 6 uger). Kampen skifter fra "bedste model" til "bedste agentøkosystem".