The Agent Watch

Briefing diario

16 jun 2026 · 6 artículos (sitio) · 9 artículos (base)

🔥 Titulares

Claude Managed Agents en sandbox autogestionada

Anthropic permite ahora que los agentes gestionados ejecuten herramientas en un contenedor controlado por el cliente, tras su firewall. Solo conexiones salientes. Servidores MCP privados compatibles. La pieza faltante para sectores regulados: salud, finanzas, legal.

Claude Agent SDK — crédito mensual separado desde el 15 de junio

El SDK Agent y claude -p no interactivo ahora consumen un crédito mensual independiente: $20 (Pro), $100 (Max 5x), $200 (Max 20x). Crédito no acumulable. Cambio estructural para equipos que construyen sobre Claude.

Guerra de frameworks de agentes — estado junio 2026

Microsoft Agent Framework 1.0 GA (fusiona AutoGen + Semantic Kernel). CrewAI: 52,4k estrellas, 2 mil millones de ejecuciones en 12 meses. Google ADK en 4 lenguajes. MCP supera 200 servidores. ACP se fusiona en A2A bajo Linux Foundation.

EVA-Bench Data 2.0 — primer benchmark completo para agentes

ServiceNow-AI publica un benchmark extendido para evaluar agentes de IA: 3 dominios, 121 herramientas, 213 escenarios. Mide selección de herramientas, razonamiento multi-paso, recuperación de errores y eficiencia de recursos.

Source: dev.to →

Holo3.1 — agente computer-use totalmente local, pesos abiertos

H Company publica un agente que controla GUIs completamente en hardware de consumo — sin necesidad de nube. Automatización teclado/ratón, interacción con pantalla. Pesos abiertos, variantes 0.8B a 35B en Hugging Face.

Source: dev.to →

IBM Research: la lógica del agente importa más que la potencia bruta del LLM

IBM sostiene que el éxito en producción depende de una lógica de agente robusta, no solo del modelo. Cuatro pilares: razonamiento multi-paso con respaldo, interacción confiable con sistemas, gestión de estado a largo plazo, manejo elegante de errores.

Source: dev.to →

Gemma 4 12B — el stack de agente de coding 100% local supera la prueba

DevArt probó Gemma 4 12B con Ollama + OpenCode en tareas reales: landing page, corrección de bugs, generación UI, minijuego — todo local, cero API keys. El creador admite que se equivocó: este stack local realmente funciona. Una alternativa creíble al coding con agentes cloud.

📡 A vigilar

Sandbox autogestionada de Anthropic — primeras señales

Observar tasas de adopción en finanzas y salud. Si la sandbox autogestionada supera las barreras de cumplimiento, podría desbloquear el despliegue de agentes empresariales a escala.

Publicación de pesos abiertos de MiniMax M3

Si MiniMax publica los pesos M3 como prometió, será el primer modelo open-weight en igualar a los frontier cerrados en SWE-Bench Pro (59%). Un terremoto para el desarrollo agentico open-source.

📊 Tendencia

La batalla se desplaza del "mejor modelo" al "mejor ecosistema de agentes". Infraestructura autogestionada, facturación dedicada, consolidación de frameworks y benchmarks específicos para agentes maduran simultáneamente. El stack de agentes se convierte en categoría de producto.