Briefing diário

16 jun 2026 · 6 itens (site) · 9 itens (base)

🔥 Destaques

Claude Managed Agents em sandbox auto-hospedada

A Anthropic agora permite que agentes geridos executem ferramentas num contentor controlado pelo cliente, atrás da sua firewall. Apenas ligações de saída. Servidores MCP privados suportados. A peça em falta para setores regulados: saúde, finanças, jurídico.

Source: tygartmedia.com →

Claude Agent SDK — crédito mensal separado desde 15 de junho

O SDK Agent e claude -p não interativo consomem agora um crédito mensal distinto: $20 (Pro), $100 (Max 5x), $200 (Max 20x). Crédito não acumulável. Mudança estrutural para equipas que constroem sobre o Claude.

Source: morphllm.com →

Guerra dos frameworks de agentes — estado junho 2026

Microsoft Agent Framework 1.0 GA (fusão AutoGen + Semantic Kernel). CrewAI: 52,4k estrelas, 2 mil milhões de execuções em 12 meses. Google ADK em 4 linguagens. MCP ultrapassa 200 servidores. ACP funde-se no A2A sob Linux Foundation.

Source: morphllm.com →

EVA-Bench Data 2.0 — primeiro benchmark completo para agentes

ServiceNow-AI publica um benchmark alargado para avaliar agentes de IA: 3 domínios, 121 ferramentas, 213 cenários. Mede seleção de ferramentas, raciocínio multi-etapas, recuperação de erros e eficiência de recursos.

Source: dev.to →

Holo3.1 — agente computer-use totalmente local, pesos abertos

H Company publica um agente que controla GUIs inteiramente em hardware de consumo — sem necessidade de cloud. Automação teclado/rato, interação com ecrã. Pesos abertos, variantes 0,8B a 35B no Hugging Face.

Source: dev.to →

IBM Research: a lógica agentica importa mais do que a potência do LLM

A IBM defende que o sucesso em produção depende de uma lógica agentica robusta, não apenas do modelo. Quatro pilares: raciocínio multi-etapas com alternativa, interação fiável com sistemas, gestão de estado de longo prazo, tratamento elegante de erros.

Source: dev.to →

Gemma 4 12B — stack de agente de coding 100% local passa no teste

DevArt testou Gemma 4 12B com Ollama + OpenCode em tarefas reais: landing page, correção de bugs, geração UI, mini-jogo — tudo local, zero API keys. O criador admite que estava errado: este stack local funciona mesmo. Alternativa credível ao coding com agentes na cloud.

Source: youtube.com/@DevArt →

📡 A vigiar

Sandbox auto-hospedada Anthropic — primeiros sinais

Observar taxas de adoção em finanças e saúde. Se a sandbox auto-hospedada ultrapassar as barreiras de conformidade, poderá desbloquear a implantação de agentes empresariais em escala.

Publicação dos pesos MiniMax M3

Se a MiniMax publicar os pesos M3 como prometido, será o primeiro modelo open-weight a igualar os frontier fechados no SWE-Bench Pro (59%). Um terramoto para o desenvolvimento agentico open-source.

📊 Tendência

A batalha muda do "melhor modelo" para o "melhor ecossistema de agentes". Infraestrutura auto-hospedada, faturação dedicada, consolidação de frameworks e benchmarks específicos para agentes amadurecem simultaneamente. O stack de agentes torna-se uma categoria de produto.