The Agent Watch

Briefing quotidien

14 juin 2026 · 8 actualités · 3 sources

🔥 À la une

Claude Fable 5 établit un nouveau record de programmation

Anthropic a lancé Claude Fable 5, atteignant 95 % sur SWE-bench — pulvérisant le précédent record (Opus 4.8 à 88 %). Contexte 1M tokens, sortie 128K, score Senior Engineer 91/100. Tarif : 10 $/50 $ par million de tokens. Lancement simultané de Claude Mythos 5 pour le raisonnement scientifique.

ChatGPT doté d'une mémoire persistante — architecture « Dreaming »

OpenAI a déployé un nouveau système de mémoire appelé « Dreaming » (4 juin) qui synthétise le contexte entre les sessions de chat. La mémoire devient une infrastructure produit, pas un simple paramètre. Le contexte obsolète ou contradictoire est réduit.

Source : kingy.ai →

Classement LLM open-source : Kimi K2.6 en tête, DeepSeek V4 Pro domine les tâches agentiques

Classements de mai 2026 : Kimi K2.6 et MiMo-V2.5-Pro à égalité avec un AA Index de 54 — à seulement 3 points des leaders propriétaires. DeepSeek V4 Pro est n°1 pour le travail agentique (GDPval-AA Elo 1554, SWE-Bench 80,6 %). 9 modèles majeurs livrés en 6 semaines.

📡 À surveiller

GitHub Copilot devient une plateforme

Microsoft a livré une vague dense autour de Copilot : application (aperçu élargi), refonte CLI, SDK GA, bacs à sable cloud/locaux. Le coding IA passe de l'autocomplétion aux sessions de travail gérées. Concurrence directe avec Claude Code et Codex.

Nex N2-Pro — nouveau challenger émergent

Architecture transformer non standard ciblant les workflows agentiques. Trop tôt pour la production, mais ajoute une pression concurrentielle sur la frontière.

Cohere North Mini Code — petit codeur open-source gratuit

30B total / 3B actifs (MoE), licence Apache 2.0, contexte 256K. Fonctionne sur du matériel modeste. Meilleure option pour un assistant de codage léger auto-hébergé.

Holo3.1 — agents de contrôle d'ordinateur locaux

H Company a publié des variantes de 0,8B à 35B sur Hugging Face. Des agents de contrôle d'écran qui s'exécutent localement — un atout pour la confidentialité et la latence.

Apple Core AI — stack sur appareil

L'inférence s'exécute localement sur Apple Silicon, APIs Swift natives. Priorité à la confidentialité pour les applications santé/finance. Écosystème Apple uniquement.

📊 Tendance

L'écart entre open-source et propriétaire n'a jamais été aussi faible : 3 points d'index. Le rythme des sorties s'accélère (9 modèles majeurs en 6 semaines). La bataille passe du « meilleur modèle » au « meilleur écosystème agent ».