Tägliches Briefing
16. Juni 2026 · 6 Einträge (Site) · 9 Einträge (Basis)
🔥 Schlagzeilen
Claude Managed Agents — selbstgehostete Sandbox-Ausführung
Anthropic erlaubt Managed Agents jetzt die Ausführung von Tools in einem kundengesteuerten Container hinter der eigenen Firewall. Nur ausgehende Verbindungen. Private MCP-Server werden unterstützt. Das fehlende Puzzleteil für regulierte Branchen: Gesundheit, Finanzen, Recht.
Claude Agent SDK — separates monatliches Guthaben ab 15. Juni
Agent SDK und nicht-interaktives claude -p verbrauchen jetzt ein eigenes Monatsguthaben: 20 $ (Pro), 100 $ (Max 5x), 200 $ (Max 20x). Nicht genutztes Guthaben verfällt. Strukturelle Änderung für Teams, die auf Claude aufbauen.
Agent-Framework-Krieg — Stand Juni 2026
Microsoft Agent Framework 1.0 GA (AutoGen + Semantic Kernel). CrewAI: 52,4k Stars, 2 Milliarden Agent-Ausführungen in 12 Monaten. Google ADK in 4 Sprachen. MCP über 200 Server. ACP fusioniert in A2A unter Linux Foundation. 8 große Frameworks im Wettbewerb.
EVA-Bench Data 2.0 — erster umfassender Agent-Benchmark
ServiceNow-AI veröffentlicht einen erweiterten Benchmark zur Bewertung von KI-Agenten: 3 Domänen, 121 Tools, 213 Szenarien. Misst Tool-Auswahl, mehrstufiges Reasoning, Fehlerbehebung und Ressourceneffizienz.
Holo3.1 — vollständig lokaler Computer-Use-Agent, offene Gewichte
H Company veröffentlicht einen Agenten, der GUIs komplett auf Consumer-Hardware steuert — keine Cloud nötig. Tastatur/Maus-Automatisierung, Bildschirm-Interaktion. Offene Gewichte, Varianten 0,8B bis 35B auf Hugging Face.
IBM Research: Agent-Logik zählt mehr als reine LLM-Leistung
IBM argumentiert, dass Produktionserfolg von robuster Agent-Logik abhängt, nicht nur vom Modell. Vier Säulen: mehrstufiges Reasoning mit Fallback, zuverlässige Systeminteraktion, Langzeit-Zustandsverwaltung, elegante Fehlerbehandlung.
Gemma 4 12B — vollständig lokaler Coding-Agent-Stack besteht Praxistest
DevArt testete Gemma 4 12B mit Ollama + OpenCode an echten Aufgaben: Landing Page, Bugfixes, UI-Generierung, Minispiel — alles 100 % lokal, keine API-Keys. Der Ersteller gab zu, falsch gelegen zu haben: Dieser lokale Stack funktioniert tatsächlich. Glaubwürdige privacy-first Alternative zum Cloud-Agent-Coding.
📡 Im Auge behalten
Anthropic selbstgehostete Sandbox — erste Adoptionssignale
Adoptionsraten in Finanzen und Gesundheit beobachten. Wenn die selbstgehostete Sandbox Compliance-Hürden überwindet, könnte sie den Einsatz von Unternehmensagenten in großem Maßstab ermöglichen.
MiniMax M3 Open-Weight-Veröffentlichung
Wenn MiniMax die M3-Gewichte wie versprochen veröffentlicht, ist es das erste Open-Weight-Modell, das geschlossene Frontier-Modelle beim SWE-Bench Pro (59 %) erreicht. Ein Beben für die Open-Source-Agentenentwicklung.
📊 Trend
Der Kampf verlagert sich vom „besten Modell" zum „besten Agent-Ökosystem." Selbstgehostete Infrastruktur, dedizierte Abrechnung, Framework-Konsolidierung und agentenspezifische Benchmarks reifen gleichzeitig. Der Agent-Stack wird zur Produktkategorie.