The Agent Watch

Dagligt briefing

16. jun 2026 · 6 nyheder (site) · 9 nyheder (base)

🔥 Overskrifter

Claude-administrerede agenter i selvhostet sandkasse

Anthropic tillader nu administrerede agenter at udføre værktøjer i en kundekontrolleret container, bag deres firewall. Kun udgående forbindelser. Private MCP-servere understøttes. Den manglende brik for regulerede sektorer: sundhed, finans, jura.

Claude Agent SDK — separat månedlig kredit fra 15. juni

Agent SDK og ikke-interaktiv claude -p trækker nu på en separat månedlig kredit: $20 (Pro), $100 (Max 5x), $200 (Max 20x). Ubrugt kredit overføres ikke. Strukturel ændring for teams der bygger på Claude.

Agentrammeværkskrig — status juni 2026

Microsoft Agent Framework 1.0 GA (fusioneret AutoGen + Semantic Kernel). CrewAI: 52,4k stjerner, 2 milliarder agentafviklinger på 12 måneder. Google ADK på 4 sprog. MCP passerer 200 servere. ACP fusioneres i A2A under Linux Foundation.

EVA-Bench Data 2.0 — første omfattende agentbenchmark

ServiceNow-AI udgiver et udvidet benchmark til evaluering af AI-agenter: 3 domæner, 121 værktøjer, 213 scenarier. Måler værktøjsvalg, flertrins-ræsonnement, fejlhåndtering og ressourceeffektivitet.

Source: dev.to →

Holo3.1 — fuldt lokal computerbrugsagent, åbne vægte

H Company udgiver en agent der styrer GUI'er helt på forbrugerhardware — ingen sky nødvendig. Tastatur/mus-automatisering, skærminteraktion. Åbne vægte, varianter 0,8B til 35B på Hugging Face.

Source: dev.to →

IBM Research: agentlogik betyder mere end rå LLM-kraft

IBM hævder at produktionssucces afhænger af robust agentlogik, ikke kun modellen. Fire søjler: flertrins-ræsonnement med fallback, pålidelig systeminteraktion, langsigtet tilstandsstyring, elegant fejlhåndtering.

Source: dev.to →

Gemma 4 12B — fuldt lokal kodningsagentstack består test

DevArt testede Gemma 4 12B med Ollama + OpenCode på ægte opgaver: landingsside, bugfixes, UI-generering, minispil — alt lokalt, nul API-nøgler. Skaberen indrømmer at han tog fejl: denne lokale stack fungerer faktisk. Troværdigt privacy-first alternativ til cloud-agentkodning.

📡 Hold øje med

Anthropic selvhostet sandkasse — første signaler

Overvåg adoptionsrater i finans og sundhed. Hvis den selvhostede sandkasse rydder compliance-forhindringer, kan den låse op for virksomhedsagenters udrulning i stor skala.

MiniMax M3 åbne vægte udgivelse

Hvis MiniMax udgiver M3-vægtene som lovet, er det den første open-weight-model der matcher lukkede frontier på SWE-Bench Pro (59%). Et jordskælv for open-source agentudvikling.

📊 Tendens

Kampen skifter fra "bedste model" til "bedste agentøkosystem". Selvhostet infrastruktur, dedikeret fakturering, rammeværkskonsolidering og agentspecifikke benchmarks modnes samtidig. Agentstakken bliver en produktkategori.