The Agent Watch

Dagligt briefing

16 juni 2026 · 6 nyheter (webb) · 9 nyheter (bas)

🔥 Rubriker

Claude Managed Agents i självhostad sandlåda

Anthropic låter nu hanterade agenter köra verktyg i en kundkontrollerad container, bakom deras brandvägg. Endast utgående anslutningar. Privata MCP-servrar stöds. Den saknade pusselbiten för reglerade sektorer: hälsa, finans, juridik.

Claude Agent SDK — separat månadskredit från 15 juni

Agent SDK och icke-interaktivt claude -p drar nu från en separat månadskredit: $20 (Pro), $100 (Max 5x), $200 (Max 20x). Outnyttjad kredit överförs inte. Strukturell förändring för team som bygger på Claude.

Agentramverkskrig — läget juni 2026

Microsoft Agent Framework 1.0 GA (sammanslaget AutoGen + Semantic Kernel). CrewAI: 52,4k stjärnor, 2 miljarder agentkörningar på 12 månader. Google ADK på 4 språk. MCP passerar 200 servrar. ACP slås ihop med A2A under Linux Foundation.

EVA-Bench Data 2.0 — första heltäckande agentbenchmarket

ServiceNow-AI publicerar ett utökat benchmark för att utvärdera AI-agenter: 3 domäner, 121 verktyg, 213 scenarier. Mäter verktygsval, flerstegsresonemang, felåterhämtning och resurseffektivitet.

Source: dev.to →

Holo3.1 — helt lokal datoranvändningsagent, öppna vikter

H Company publicerar en agent som styr GUI helt på konsumenthårdvara — inget moln behövs. Tangentbord/mus-automatisering, skärminteraktion. Öppna vikter, varianter 0,8B till 35B på Hugging Face.

Source: dev.to →

IBM Research: agentlogik väger tyngre än rå LLM-kraft

IBM hävdar att produktionsframgång beror på robust agentlogik, inte bara modellen. Fyra pelare: flerstegsresonemang med reserv, tillförlitlig systeminteraktion, långsiktig tillståndshantering, elegant felhantering.

Source: dev.to →

Gemma 4 12B — helt lokal kodningsagentstack klarar verkligt test

DevArt testade Gemma 4 12B med Ollama + OpenCode på riktiga uppgifter: landningssida, buggfixar, UI-generering, minispel — allt lokalt, noll API-nycklar. Skaparen medger att han hade fel: denna lokala stack fungerar faktiskt. Trovärdigt integritetsförstahandsalternativ till molnagentkodning.

📡 Att bevaka

Anthropic självhostad sandlåda — första signaler

Bevaka adoptionsgrader inom finans och hälsa. Om den självhostade sandlådan klarar efterlevnadshinder kan den låsa upp företagsagentdistribution i stor skala.

MiniMax M3 öppna vikter publiceras

Om MiniMax publicerar M3-vikterna som utlovat är det den första open-weight-modellen som matchar stängda frontier på SWE-Bench Pro (59%). En omvälvning för open-source-agentutveckling.

📊 Trend

Kampen skiftar från "bästa modell" till "bästa agentekosystem". Självhostad infrastruktur, dedikerad fakturering, ramverkskonsolidering och agentspecifika benchmarks mognar samtidigt. Agentstacken blir en produktkategori.