The Agent Watch

Briefing diario

14 de junio de 2026 · 8 noticias · 3 fuentes

🔥 Titulares

Claude Fable 5 establece un nuevo récord de programación

Anthropic lanzó Claude Fable 5, alcanzando 95 % en SWE-bench — pulverizando el récord anterior (Opus 4.8 con 88 %). Contexto de 1M tokens, salida de 128K, puntuación Senior Engineer 91/100. Precio: 10 $/50 $ por millón de tokens. Lanzamiento simultáneo de Claude Mythos 5 para razonamiento científico.

ChatGPT obtiene memoria persistente — arquitectura « Dreaming »

OpenAI desplegó un nuevo sistema de memoria llamado « Dreaming » (4 de junio) que sintetiza el contexto entre sesiones de chat. La memoria se convierte en infraestructura de producto, no en una configuración. El contexto obsoleto o contradictorio se reduce.

Fuente: kingy.ai →

Ranking LLM open-source: Kimi K2.6 lidera, DeepSeek V4 Pro domina tareas agentivas

Rankings de mayo de 2026: Kimi K2.6 y MiMo-V2.5-Pro empatan con AA Index 54 — a solo 3 puntos de los líderes propietarios. DeepSeek V4 Pro es n.º 1 en trabajo agentivo (GDPval-AA Elo 1554, SWE-Bench 80,6 %). 9 grandes modelos lanzados en 6 semanas.

📡 A vigilar

GitHub Copilot se convierte en plataforma

Microsoft lanzó una ola densa alrededor de Copilot: app (vista previa ampliada), renovación de CLI, SDK GA, sandboxes cloud/locales. La programación con IA pasa del autocompletado a sesiones de trabajo gestionadas. Competencia directa con Claude Code y Codex.

Nex N2-Pro — nuevo competidor desde el sigilo

Arquitectura transformer no estándar orientada a flujos agentivos. Demasiado pronto para producción, pero añade presión competitiva en la frontera.

Cohere North Mini Code — pequeño codificador open-source gratuito

30B totales / 3B activos (MoE), licencia Apache 2.0, contexto 256K. Funciona en hardware modesto. Mejor opción para asistente de codificación ligero autohospedado.

Holo3.1 — agentes locales de control de ordenador

H Company publicó variantes de 0,8B a 35B en Hugging Face. Agentes de control de pantalla que se ejecutan localmente — ventaja en privacidad y latencia.

Apple Core AI — stack en dispositivo

La inferencia se ejecuta localmente en Apple Silicon, APIs nativas Swift. Privacidad primero para aplicaciones de salud/finanzas. Solo ecosistema Apple.

📊 Tendencia

La brecha entre open-source y propietario nunca ha sido más pequeña: 3 puntos de índice. El ritmo de lanzamientos se acelera (9 grandes modelos en 6 semanas). La batalla está pasando del « mejor modelo » al « mejor ecosistema de agentes ».