Briefing diário
16 jun 2026 · 6 itens (site) · 9 itens (base)
🔥 Destaques
Claude Managed Agents em sandbox auto-hospedada
A Anthropic agora permite que agentes geridos executem ferramentas num contentor controlado pelo cliente, atrás da sua firewall. Apenas ligações de saída. Servidores MCP privados suportados. A peça em falta para setores regulados: saúde, finanças, jurídico.
Claude Agent SDK — crédito mensal separado desde 15 de junho
O SDK Agent e claude -p não interativo consomem agora um crédito mensal distinto: $20 (Pro), $100 (Max 5x), $200 (Max 20x). Crédito não acumulável. Mudança estrutural para equipas que constroem sobre o Claude.
Guerra dos frameworks de agentes — estado junho 2026
Microsoft Agent Framework 1.0 GA (fusão AutoGen + Semantic Kernel). CrewAI: 52,4k estrelas, 2 mil milhões de execuções em 12 meses. Google ADK em 4 linguagens. MCP ultrapassa 200 servidores. ACP funde-se no A2A sob Linux Foundation.
EVA-Bench Data 2.0 — primeiro benchmark completo para agentes
ServiceNow-AI publica um benchmark alargado para avaliar agentes de IA: 3 domínios, 121 ferramentas, 213 cenários. Mede seleção de ferramentas, raciocínio multi-etapas, recuperação de erros e eficiência de recursos.
Holo3.1 — agente computer-use totalmente local, pesos abertos
H Company publica um agente que controla GUIs inteiramente em hardware de consumo — sem necessidade de cloud. Automação teclado/rato, interação com ecrã. Pesos abertos, variantes 0,8B a 35B no Hugging Face.
IBM Research: a lógica agentica importa mais do que a potência do LLM
A IBM defende que o sucesso em produção depende de uma lógica agentica robusta, não apenas do modelo. Quatro pilares: raciocínio multi-etapas com alternativa, interação fiável com sistemas, gestão de estado de longo prazo, tratamento elegante de erros.
Gemma 4 12B — stack de agente de coding 100% local passa no teste
DevArt testou Gemma 4 12B com Ollama + OpenCode em tarefas reais: landing page, correção de bugs, geração UI, mini-jogo — tudo local, zero API keys. O criador admite que estava errado: este stack local funciona mesmo. Alternativa credível ao coding com agentes na cloud.
📡 A vigiar
Sandbox auto-hospedada Anthropic — primeiros sinais
Observar taxas de adoção em finanças e saúde. Se a sandbox auto-hospedada ultrapassar as barreiras de conformidade, poderá desbloquear a implantação de agentes empresariais em escala.
Publicação dos pesos MiniMax M3
Se a MiniMax publicar os pesos M3 como prometido, será o primeiro modelo open-weight a igualar os frontier fechados no SWE-Bench Pro (59%). Um terramoto para o desenvolvimento agentico open-source.
📊 Tendência
A batalha muda do "melhor modelo" para o "melhor ecossistema de agentes". Infraestrutura auto-hospedada, faturação dedicada, consolidação de frameworks e benchmarks específicos para agentes amadurecem simultaneamente. O stack de agentes torna-se uma categoria de produto.