The Agent Watch

Briefing

14 de junho de 2026 · 8 itens · 3 fontes

🔥 Manchetes

Claude Fable 5 estabelece novo recorde de benchmark de programação

A Anthropic lançou o Claude Fable 5, atingindo 95% no SWE-bench — destruindo o recorde anterior (Opus 4.8 com 88%). Contexto de 1M tokens, saída de 128K, pontuação Senior Engineer 91/100. Preço: $10/$50 por milhão de tokens. Lançamento simultâneo do Claude Mythos 5 para raciocínio científico.

ChatGPT ganha memória persistente — arquitetura "Dreaming"

A OpenAI implantou um novo sistema de memória chamado "Dreaming" (4 de junho) que sintetiza o contexto entre sessões de chat. A memória se torna infraestrutura de produto, não uma configuração. O contexto obsoleto ou contraditório é reduzido.

Rankings LLM open-source: Kimi K2.6 em primeiro, DeepSeek V4 Pro domina tarefas agentivas

Rankings de maio de 2026: Kimi K2.6 e MiMo-V2.5-Pro empatados com AA Index 54 — apenas 3 pontos abaixo dos líderes closed-source. DeepSeek V4 Pro é n.º1 para trabalho agentivo (GDPval-AA Elo 1554, SWE-Bench 80,6%). 9 modelos principais lançados em 6 semanas.

📡 Para acompanhar

GitHub Copilot se torna uma plataforma

A Microsoft lançou uma onda densa em torno do Copilot: app (pré-visualização expandida), renovação da CLI, SDK GA, sandboxes cloud/locais. A codificação com IA passa do autocompletar para sessões de trabalho gerenciadas. Concorrência direta com Claude Code e Codex.

Nex N2-Pro — novo desafiante do modo stealth

Arquitetura transformer não padrão voltada para fluxos de trabalho agentivos. Muito cedo para produção, mas adiciona pressão competitiva na fronteira.

Cohere North Mini Code — codificador open-source pequeno e gratuito

30B totais / 3B ativos (MoE), licença Apache 2.0, contexto de 256K. Funciona em hardware modesto. Melhor opção para IA de codificação leve auto-hospedada.

Holo3.1 — agentes locais de controle de computador

A H Company publicou variantes de 0,8B a 35B no Hugging Face. Agentes de controle de tela que rodam localmente — vantagem em privacidade e latência.

Apple Core AI — stack on-device

A inferência roda localmente no Apple Silicon, APIs nativas Swift. Privacidade em primeiro lugar para apps de saúde/finanças. Apenas ecossistema Apple.

📊 Tendência

A diferença entre open-source e closed-source nunca foi tão pequena: 3 pontos de índice. O ritmo de lançamento está acelerando (9 modelos principais em 6 semanas). A batalha está mudando do "melhor modelo" para o "melhor ecossistema de agentes".