Briefing quotidien
16 juin 2026 · 6 actus (site) · 9 actus (base)
🔥 À la une
Claude Managed Agents passe en sandbox auto-hébergé
Anthropic permet désormais aux agents managés d'exécuter leurs outils dans un conteneur contrôlé par le client, derrière son pare-feu. Connexions sortantes uniquement — Anthropic n'initie jamais de connexion entrante. Serveurs MCP privés supportés. La pièce manquante pour les secteurs régulés : santé, finance, juridique.
Claude Agent SDK — crédit mensuel séparé depuis le 15 juin
Le SDK Agent et claude -p non-interactif puisent désormais dans un crédit mensuel distinct : 20 $ (Pro), 100 $ (Max 5x), 200 $ (Max 20x). Crédit non reporté. Un changement structurel pour les équipes qui construisent sur Claude.
Guerre des frameworks agents — état des lieux juin 2026
Microsoft Agent Framework 1.0 GA (fusion AutoGen + Semantic Kernel). CrewAI : 52,4k stars, 2 milliards d'exécutions d'agents en 12 mois. Google ADK en 4 langages. MCP dépasse 200 serveurs. ACP fusionne dans A2A sous Linux Foundation. 8 frameworks majeurs en compétition.
EVA-Bench Data 2.0 — premier benchmark complet pour agents IA
ServiceNow-AI publie un benchmark étendu pour évaluer les agents IA : 3 domaines, 121 outils, 213 scénarios. Mesure la sélection d'outils, le raisonnement multi-étapes, la récupération d'erreur et l'efficacité des ressources. Comble un vide majeur.
Holo3.1 — agent computer-use 100 % local, poids ouverts
H Company publie un agent qui contrôle des interfaces graphiques entièrement sur matériel grand public — aucun cloud nécessaire. Automatisation clavier/souris, interaction écran, contrôle d'applications. Poids ouverts, variantes 0,8B à 35B sur Hugging Face.
IBM Research : la logique agentique compte plus que la puissance du LLM
IBM affirme que le succès en production dépend d'une logique agentique robuste, pas seulement du modèle. Quatre piliers : raisonnement multi-étapes avec repli, interaction fiable avec les systèmes externes, gestion d'état long-terme, gestion gracieuse des erreurs.
Gemma 4 12B — la stack agentique de coding 100 % locale passe le test
DevArt a testé Gemma 4 12B avec Ollama + OpenCode sur des tâches réelles : landing page, corrections de bugs, génération UI, mini-jeu — tout en local, zéro clé API. Le créateur admet s'être trompé : cette stack locale fonctionne vraiment pour le développement. Une alternative crédible aux agents cloud.
📡 À surveiller
Sandbox auto-hébergé Anthropic — premiers signaux d'adoption
Surveiller les taux d'adoption en finance et santé. Si le sandbox auto-hébergé passe les barrières de conformité, il pourrait débloquer le déploiement d'agents en entreprise à grande échelle.
Publication des poids de MiniMax M3
Si MiniMax publie les poids M3 comme promis, ce sera le premier modèle open-weight à égaler les frontaliers fermés sur SWE-Bench Pro (59 %). Un séisme pour le développement agentique open-source.
📊 Tendance
La bataille passe du « meilleur modèle » au « meilleur écosystème agent ». Infrastructure auto-hébergée, facturation dédiée, consolidation des frameworks et benchmarks spécifiques aux agents — tout mûrit simultanément. La stack agent devient une catégorie de produit.