The Agent Watch

Tägliches Briefing

16. Juni 2026 · 6 Einträge (Site) · 9 Einträge (Basis)

🔥 Schlagzeilen

Claude Managed Agents — selbstgehostete Sandbox-Ausführung

Anthropic erlaubt Managed Agents jetzt die Ausführung von Tools in einem kundengesteuerten Container hinter der eigenen Firewall. Nur ausgehende Verbindungen. Private MCP-Server werden unterstützt. Das fehlende Puzzleteil für regulierte Branchen: Gesundheit, Finanzen, Recht.

Claude Agent SDK — separates monatliches Guthaben ab 15. Juni

Agent SDK und nicht-interaktives claude -p verbrauchen jetzt ein eigenes Monatsguthaben: 20 $ (Pro), 100 $ (Max 5x), 200 $ (Max 20x). Nicht genutztes Guthaben verfällt. Strukturelle Änderung für Teams, die auf Claude aufbauen.

Agent-Framework-Krieg — Stand Juni 2026

Microsoft Agent Framework 1.0 GA (AutoGen + Semantic Kernel). CrewAI: 52,4k Stars, 2 Milliarden Agent-Ausführungen in 12 Monaten. Google ADK in 4 Sprachen. MCP über 200 Server. ACP fusioniert in A2A unter Linux Foundation. 8 große Frameworks im Wettbewerb.

EVA-Bench Data 2.0 — erster umfassender Agent-Benchmark

ServiceNow-AI veröffentlicht einen erweiterten Benchmark zur Bewertung von KI-Agenten: 3 Domänen, 121 Tools, 213 Szenarien. Misst Tool-Auswahl, mehrstufiges Reasoning, Fehlerbehebung und Ressourceneffizienz.

Source: dev.to →

Holo3.1 — vollständig lokaler Computer-Use-Agent, offene Gewichte

H Company veröffentlicht einen Agenten, der GUIs komplett auf Consumer-Hardware steuert — keine Cloud nötig. Tastatur/Maus-Automatisierung, Bildschirm-Interaktion. Offene Gewichte, Varianten 0,8B bis 35B auf Hugging Face.

Source: dev.to →

IBM Research: Agent-Logik zählt mehr als reine LLM-Leistung

IBM argumentiert, dass Produktionserfolg von robuster Agent-Logik abhängt, nicht nur vom Modell. Vier Säulen: mehrstufiges Reasoning mit Fallback, zuverlässige Systeminteraktion, Langzeit-Zustandsverwaltung, elegante Fehlerbehandlung.

Source: dev.to →

Gemma 4 12B — vollständig lokaler Coding-Agent-Stack besteht Praxistest

DevArt testete Gemma 4 12B mit Ollama + OpenCode an echten Aufgaben: Landing Page, Bugfixes, UI-Generierung, Minispiel — alles 100 % lokal, keine API-Keys. Der Ersteller gab zu, falsch gelegen zu haben: Dieser lokale Stack funktioniert tatsächlich. Glaubwürdige privacy-first Alternative zum Cloud-Agent-Coding.

📡 Im Auge behalten

Anthropic selbstgehostete Sandbox — erste Adoptionssignale

Adoptionsraten in Finanzen und Gesundheit beobachten. Wenn die selbstgehostete Sandbox Compliance-Hürden überwindet, könnte sie den Einsatz von Unternehmensagenten in großem Maßstab ermöglichen.

MiniMax M3 Open-Weight-Veröffentlichung

Wenn MiniMax die M3-Gewichte wie versprochen veröffentlicht, ist es das erste Open-Weight-Modell, das geschlossene Frontier-Modelle beim SWE-Bench Pro (59 %) erreicht. Ein Beben für die Open-Source-Agentenentwicklung.

📊 Trend

Der Kampf verlagert sich vom „besten Modell" zum „besten Agent-Ökosystem." Selbstgehostete Infrastruktur, dedizierte Abrechnung, Framework-Konsolidierung und agentenspezifische Benchmarks reifen gleichzeitig. Der Agent-Stack wird zur Produktkategorie.