Briefing
14 de junho de 2026 · 8 itens · 3 fontes
🔥 Manchetes
Claude Fable 5 estabelece novo recorde de benchmark de programação
A Anthropic lançou o Claude Fable 5, atingindo 95% no SWE-bench — destruindo o recorde anterior (Opus 4.8 com 88%). Contexto de 1M tokens, saída de 128K, pontuação Senior Engineer 91/100. Preço: $10/$50 por milhão de tokens. Lançamento simultâneo do Claude Mythos 5 para raciocínio científico.
ChatGPT ganha memória persistente — arquitetura "Dreaming"
A OpenAI implantou um novo sistema de memória chamado "Dreaming" (4 de junho) que sintetiza o contexto entre sessões de chat. A memória se torna infraestrutura de produto, não uma configuração. O contexto obsoleto ou contraditório é reduzido.
Rankings LLM open-source: Kimi K2.6 em primeiro, DeepSeek V4 Pro domina tarefas agentivas
Rankings de maio de 2026: Kimi K2.6 e MiMo-V2.5-Pro empatados com AA Index 54 — apenas 3 pontos abaixo dos líderes closed-source. DeepSeek V4 Pro é n.º1 para trabalho agentivo (GDPval-AA Elo 1554, SWE-Bench 80,6%). 9 modelos principais lançados em 6 semanas.
📡 Para acompanhar
GitHub Copilot se torna uma plataforma
A Microsoft lançou uma onda densa em torno do Copilot: app (pré-visualização expandida), renovação da CLI, SDK GA, sandboxes cloud/locais. A codificação com IA passa do autocompletar para sessões de trabalho gerenciadas. Concorrência direta com Claude Code e Codex.
Nex N2-Pro — novo desafiante do modo stealth
Arquitetura transformer não padrão voltada para fluxos de trabalho agentivos. Muito cedo para produção, mas adiciona pressão competitiva na fronteira.
Cohere North Mini Code — codificador open-source pequeno e gratuito
30B totais / 3B ativos (MoE), licença Apache 2.0, contexto de 256K. Funciona em hardware modesto. Melhor opção para IA de codificação leve auto-hospedada.
Holo3.1 — agentes locais de controle de computador
A H Company publicou variantes de 0,8B a 35B no Hugging Face. Agentes de controle de tela que rodam localmente — vantagem em privacidade e latência.
Apple Core AI — stack on-device
A inferência roda localmente no Apple Silicon, APIs nativas Swift. Privacidade em primeiro lugar para apps de saúde/finanças. Apenas ecossistema Apple.
📊 Tendência
A diferença entre open-source e closed-source nunca foi tão pequena: 3 pontos de índice. O ritmo de lançamento está acelerando (9 modelos principais em 6 semanas). A batalha está mudando do "melhor modelo" para o "melhor ecossistema de agentes".