The Agent Watch

Briefing quotidien

16 juin 2026 · 6 actus (site) · 9 actus (base)

🔥 À la une

Claude Managed Agents passe en sandbox auto-hébergé

Anthropic permet désormais aux agents managés d'exécuter leurs outils dans un conteneur contrôlé par le client, derrière son pare-feu. Connexions sortantes uniquement — Anthropic n'initie jamais de connexion entrante. Serveurs MCP privés supportés. La pièce manquante pour les secteurs régulés : santé, finance, juridique.

Claude Agent SDK — crédit mensuel séparé depuis le 15 juin

Le SDK Agent et claude -p non-interactif puisent désormais dans un crédit mensuel distinct : 20 $ (Pro), 100 $ (Max 5x), 200 $ (Max 20x). Crédit non reporté. Un changement structurel pour les équipes qui construisent sur Claude.

Guerre des frameworks agents — état des lieux juin 2026

Microsoft Agent Framework 1.0 GA (fusion AutoGen + Semantic Kernel). CrewAI : 52,4k stars, 2 milliards d'exécutions d'agents en 12 mois. Google ADK en 4 langages. MCP dépasse 200 serveurs. ACP fusionne dans A2A sous Linux Foundation. 8 frameworks majeurs en compétition.

EVA-Bench Data 2.0 — premier benchmark complet pour agents IA

ServiceNow-AI publie un benchmark étendu pour évaluer les agents IA : 3 domaines, 121 outils, 213 scénarios. Mesure la sélection d'outils, le raisonnement multi-étapes, la récupération d'erreur et l'efficacité des ressources. Comble un vide majeur.

Source: dev.to →

Holo3.1 — agent computer-use 100 % local, poids ouverts

H Company publie un agent qui contrôle des interfaces graphiques entièrement sur matériel grand public — aucun cloud nécessaire. Automatisation clavier/souris, interaction écran, contrôle d'applications. Poids ouverts, variantes 0,8B à 35B sur Hugging Face.

Source: dev.to →

IBM Research : la logique agentique compte plus que la puissance du LLM

IBM affirme que le succès en production dépend d'une logique agentique robuste, pas seulement du modèle. Quatre piliers : raisonnement multi-étapes avec repli, interaction fiable avec les systèmes externes, gestion d'état long-terme, gestion gracieuse des erreurs.

Source: dev.to →

Gemma 4 12B — la stack agentique de coding 100 % locale passe le test

DevArt a testé Gemma 4 12B avec Ollama + OpenCode sur des tâches réelles : landing page, corrections de bugs, génération UI, mini-jeu — tout en local, zéro clé API. Le créateur admet s'être trompé : cette stack locale fonctionne vraiment pour le développement. Une alternative crédible aux agents cloud.

📡 À surveiller

Sandbox auto-hébergé Anthropic — premiers signaux d'adoption

Surveiller les taux d'adoption en finance et santé. Si le sandbox auto-hébergé passe les barrières de conformité, il pourrait débloquer le déploiement d'agents en entreprise à grande échelle.

Publication des poids de MiniMax M3

Si MiniMax publie les poids M3 comme promis, ce sera le premier modèle open-weight à égaler les frontaliers fermés sur SWE-Bench Pro (59 %). Un séisme pour le développement agentique open-source.

📊 Tendance

La bataille passe du « meilleur modèle » au « meilleur écosystème agent ». Infrastructure auto-hébergée, facturation dédiée, consolidation des frameworks et benchmarks spécifiques aux agents — tout mûrit simultanément. La stack agent devient une catégorie de produit.