Dagligt briefing
16. jun 2026 · 6 nyheder (site) · 9 nyheder (base)
🔥 Overskrifter
Claude-administrerede agenter i selvhostet sandkasse
Anthropic tillader nu administrerede agenter at udføre værktøjer i en kundekontrolleret container, bag deres firewall. Kun udgående forbindelser. Private MCP-servere understøttes. Den manglende brik for regulerede sektorer: sundhed, finans, jura.
Claude Agent SDK — separat månedlig kredit fra 15. juni
Agent SDK og ikke-interaktiv claude -p trækker nu på en separat månedlig kredit: $20 (Pro), $100 (Max 5x), $200 (Max 20x). Ubrugt kredit overføres ikke. Strukturel ændring for teams der bygger på Claude.
Agentrammeværkskrig — status juni 2026
Microsoft Agent Framework 1.0 GA (fusioneret AutoGen + Semantic Kernel). CrewAI: 52,4k stjerner, 2 milliarder agentafviklinger på 12 måneder. Google ADK på 4 sprog. MCP passerer 200 servere. ACP fusioneres i A2A under Linux Foundation.
EVA-Bench Data 2.0 — første omfattende agentbenchmark
ServiceNow-AI udgiver et udvidet benchmark til evaluering af AI-agenter: 3 domæner, 121 værktøjer, 213 scenarier. Måler værktøjsvalg, flertrins-ræsonnement, fejlhåndtering og ressourceeffektivitet.
Holo3.1 — fuldt lokal computerbrugsagent, åbne vægte
H Company udgiver en agent der styrer GUI'er helt på forbrugerhardware — ingen sky nødvendig. Tastatur/mus-automatisering, skærminteraktion. Åbne vægte, varianter 0,8B til 35B på Hugging Face.
IBM Research: agentlogik betyder mere end rå LLM-kraft
IBM hævder at produktionssucces afhænger af robust agentlogik, ikke kun modellen. Fire søjler: flertrins-ræsonnement med fallback, pålidelig systeminteraktion, langsigtet tilstandsstyring, elegant fejlhåndtering.
Gemma 4 12B — fuldt lokal kodningsagentstack består test
DevArt testede Gemma 4 12B med Ollama + OpenCode på ægte opgaver: landingsside, bugfixes, UI-generering, minispil — alt lokalt, nul API-nøgler. Skaberen indrømmer at han tog fejl: denne lokale stack fungerer faktisk. Troværdigt privacy-first alternativ til cloud-agentkodning.
📡 Hold øje med
Anthropic selvhostet sandkasse — første signaler
Overvåg adoptionsrater i finans og sundhed. Hvis den selvhostede sandkasse rydder compliance-forhindringer, kan den låse op for virksomhedsagenters udrulning i stor skala.
MiniMax M3 åbne vægte udgivelse
Hvis MiniMax udgiver M3-vægtene som lovet, er det den første open-weight-model der matcher lukkede frontier på SWE-Bench Pro (59%). Et jordskælv for open-source agentudvikling.
📊 Tendens
Kampen skifter fra "bedste model" til "bedste agentøkosystem". Selvhostet infrastruktur, dedikeret fakturering, rammeværkskonsolidering og agentspecifikke benchmarks modnes samtidig. Agentstakken bliver en produktkategori.