The Agent Watch
Briefing Artigos Ferramentas Sobre EN FR DE ES 中文 IT PT SV FI DA

Briefing diário

28 de junho de 2026 · 5 notícias (site) · 6 notícias (base)

🔥 Em destaque

01

Alibaba lança um simulador que prevê o que vai acontecer antes de o agente agir

Antes de um carro autónomo ir para a estrada, primeiro faz-se treinar com milhões de quilómetros simulados. A Alibaba (Qwen) lançou esta semana o Qwen-AgentWorld, que faz o mesmo pelos agentes de IA. O sistema adivinha antecipadamente o que um terminal, um navegador, um telemóvel Android, uma ferramenta externa ou um repositório de código vão devolver — antes mesmo de o agente enviar o comando real. Resultado: o agente pode treinar, testar e corrigir-se sem nunca partir um sistema real. O modelo 397B ultrapassa até o GPT-5.4 no teste interno da equipa, e tudo é publicado em código aberto (licença Apache 2.0). Para uma equipa que quer pôr um agente em produção, é a promessa de uma caixa de areia em tamanho real — como se cada agente tivesse a sua própria pista de testes antes da estrada aberta.

02

Microsoft passa a exigir aprovação humana antes de cada ação de um agente

Até agora, um agente empresarial podia apagar um ficheiro, enviar um e-mail ou alterar uma base de dados sem ninguém saber. A Microsoft atualizou a 25 de junho a sua Microsoft Agent Framework para a versão 1.11.1 e mudou a regra: por defeito, toda a ferramenta usada por um agente exige agora aprovação humana explícita. Na prática, nenhuma ação sensível pode disparar sozinha. Também no menu: o Telegram torna-se um canal oficial para alojar um agente, e a integração com o GitHub Copilot passa a estável. O projeto já conta com 11.700 estrelas no GitHub e está a tornar-se uma das bases de referência para agentes empresariais. É um pouco como se finalmente se tivesse instalado um botão «confirmar» em cada cabo elétrico de uma fábrica — o agente continua potente, mas nada dispara sozinho.

03

Scaled Cognition angaria 100 milhões para construir IA que prefere calar-se a inventar

Quando liga para o seu banco a contestar uma transferência, não quer ouvir um agente a improvisar. E no entanto, os modelos generalistas falham cerca de uma em cada três vezes em produção — o que é inaceitável para bancos, saúde ou seguros. A Scaled Cognition angariou 100 milhões de dólares a 25 de junho (liderados pela Khosla Ventures) para construir, de raiz, um modelo que se compromete a nunca produzir uma resposta errada. Em vez de colar um filtro de segurança a um modelo existente, a empresa reescreveu a IA de propósito para a fiabilidade. Resultado: um modelo deliberadamente mais pequeno e barato, mas que recusa responder quando não tem a certeza — em vez de inventar. A Genesys, que gere o atendimento ao cliente de 8.000 organizações, já o utiliza. A aposta: substituir os call centers externalizados (um mercado de 600 mil milhões de dólares) por uma força de trabalho de IA que a empresa possui e controla ela própria.

04

O criador do Spring lança Embabel, uma ponte entre 20 anos de código Java e os agentes de IA

Se trabalha num grande banco, numa seguradora ou num ministério, a sua TI corre quase de certeza em Java — e há muito tempo. Rod Johnson, o criador do famoso framework Spring, apresentou a 9 de abril o Embabel, uma nova ferramenta gratuita e open source (Apache 2.0) escrita em Kotlin, totalmente compatível com Java, que permite a estas organizações construir agentes de IA sem ter de reescrever tudo. A ideia: deixar a IA decidir apenas o que sabe fazer bem, e manter para o resto um planeamento clássico — o mesmo usado nos jogos de vídeo desde os anos 90. Cada decisão do agente continua explicável e auditável, o que é essencial em setores regulados. Para os 20 milhões de programadores Java no mundo, é a via mais credível de trazer agentes de IA para os sistemas que movem a economia real — sem recomeçar do zero.

05

Uma IA open source aprende sozinha a organizar melhor a forma como escreve código

A maioria das IAs que escrevem código limita-se a responder à pergunta que lhes é feita. A DeepReinforce, uma startup jovem, publicou a 25 de junho a sua família de modelos Ornith-1.0 sob licença MIT (gratuita, sem restrições) — e a abordagem é diferente: durante o treino, o modelo não aprende só a programar, aprende também a melhorar a forma como organiza o seu trabalho para programar. Quanto mais treina, mais descobre melhores «percursos de pesquisa», um pouco como um aluno que, ao longo do ano letivo, aprende não só a matéria mas também a estudar melhor. O maior modelo (397 mil milhões de parâmetros) atinge 82,4% no teste de referência SWE-Bench Verified, à frente da maioria dos modelos fechados. E funciona com as ferramentas que os programadores já usam: OpenHands, Hermes Agent, OpenClaw. Para uma equipa que quer um agente que melhore com o tempo, é uma porta de entrada gratuita e sem condições.

📡 A vigiar

Os simuladores de ambientes estão a tornar-se uma categoria de infraestrutura por direito próprio

Qwen-AgentWorld (Alibaba) esta semana, Patronus Digital Worlds na semana passada, e já existe um benchmark dedicado: a categoria «mundo simulado para treinar agentes» está a tornar-se um mercado por direito próprio. O sinal: treinar um agente diretamente no mundo real custa demasiado, demora demasiado tempo e é demasiado arriscado. A acompanhar nas próximas semanas: qual dos OpenAI, Anthropic ou Google DeepMind vai anunciar o seu próprio simulador de ambientes.

Segurança por defeito está a tornar-se um pré-requisito para agentes empresariais

Em quatro dias, três anúncios sobre o mesmo tema: a Microsoft exige aprovação humana por defeito (25 de junho), a Runlayer angaria 30 M$ para se tornar o painel de controlo dos agentes (24 de junho), a F5 compra a SurePath AI para segurança (24 de junho). O sinal é claro: sem uma camada de identidade, permissões e auditoria, os agentes em produção tornam-se incontroláveis. É a mesma viragem que a cibersegurança deu na década de 2010 — primeiro um tema de TI, depois uma função crítica em cada empresa.

Fiabilidade «construída desde o primeiro dia» vs. «acrescentada depois»

A Scaled Cognition (100 M$) e a DeepReinforce (Ornith) apostam ambas que não basta colar um filtro de segurança a um modelo generalista. A aposta delas: a fiabilidade tem de ser desenhada desde o início, não acrescentada depois. Se alguma delas cumprir as promessas em bancos, saúde ou seguros, pode rebaralhar um mercado hoje dominado por alguns modelos generalistas.

O open source ultrapassa os modelos fechados em tarefas de agentes

Com o Ornith-1.0 (MIT, 82,4% no SWE-Bench Verified a 397B parâmetros) e o Qwen-AgentWorld (Apache 2.0, primeiro no AgentWorldBench), o open source apanhou e ultrapassou os modelos fechados nos benchmarks específicos para agentes. O sinal para os CTO: em fluxos de trabalho com agentes, os modelos especializados já batem os generalistas. A consequência orçamental: mais um argumento para não pagar a preço de ouro um modelo fechado quando um livre faz melhor a tarefa concreta.

📊 Tendência

28 de junho de 2026 marca a semana em que as peças em falta da IA agêntica se montam ao mesmo tempo. (1) Custo e realismo: o Qwen-AgentWorld permite treinar um agente num mundo simulado antes de tocar no real. (2) Segurança: a Microsoft exige aprovação humana por defeito, e ao mesmo tempo emerge toda uma categoria de «governação de agentes». (3) Fiabilidade: a Scaled Cognition (100 M$) aposta numa IA que recusa responder quando não tem a certeza, em vez de inventar. (4) Ponte para o que já existe: Rod Johnson, com o Embabel, dá a milhões de programadores Java uma entrada nos agentes sem reescrever tudo. (5) O open source ganha: a DeepReinforce mostra que um modelo livre pode superar os fechados nos benchmarks de agentes. Quando todas estas peças aparecem ao mesmo tempo, a economia dos agentes deixa de ser uma experiência de laboratório e torna-se uma indústria a sério.