The Agent Watch
Briefing Articoli Strumenti Chi siamo EN FR DE ES 中文 IT PT SV FI DA

Briefing quotidiano

28 giugno 2026 · 5 notizie (sito) · 6 notizie (base)

🔥 In primo piano

01

Alibaba lancia un simulatore che prevede cosa succederà prima che l'agente agisca

Prima di lasciare un'auto a guida autonoma in strada, la si fa prima addestrare su milioni di chilometri simulati. Alibaba (Qwen) ha pubblicato questa settimana Qwen-AgentWorld, che fa la stessa cosa per gli agenti IA. Il sistema indovina in anticipo cosa restituiranno un terminale, un browser, un telefono Android, uno strumento di terze parti o un repository di codice — prima ancora che l'agente invii il comando reale. Risultato: l'agente può allenarsi, testarsi e correggersi senza mai rompere un sistema reale. Il modello 397B supera persino GPT-5.4 nel benchmark interno del team, e tutto è pubblicato come open source (licenza Apache 2.0). Per un team che vuole mettere un agente in produzione, è la promessa di una sandbox a grandezza naturale — come se ogni agente avesse la sua pista di prova prima della strada aperta.

02

Microsoft ora richiede l'approvazione umana prima di ogni azione di un agente

Fino ad ora, un agente aziendale poteva cancellare un file, inviare un'email o modificare un database senza che nessuno lo sapesse. Microsoft ha aggiornato il 25 giugno il suo Microsoft Agent Framework alla versione 1.11.1 e ha cambiato la regola: di default, ogni strumento usato da un agente richiede ora un'approvazione umana esplicita. In pratica, nessuna azione sensibile può più partire da sola. Sempre in menu: Telegram diventa un canale ufficiale per ospitare un agente, e l'integrazione con GitHub Copilot passa a stabile. Il progetto conta già 11.700 stelle su GitHub e sta diventando una delle fondamenta di riferimento per gli agenti aziendali. È un po' come se finalmente si installasse un pulsante «conferma» su ogni cavo elettrico di una fabbrica — l'agente resta potente, ma nulla parte più da solo.

03

Scaled Cognition raccoglie 100 milioni per costruire un'IA che preferisce tacere piuttosto che inventare

Quando chiami la tua banca per contestare un bonifico, non vuoi sentire un agente che improvvisa. Eppure, i modelli generalisti sbagliano circa una volta su tre in produzione — cosa inaccettabile per banche, sanità o assicurazioni. Scaled Cognition ha raccolto 100 milioni di dollari il 25 giugno (guidati da Khosla Ventures) per costruire, da zero, un modello che si impegna a non produrre mai una risposta sbagliata. Invece di aggiungere un filtro di sicurezza a un modello esistente, l'azienda ha riscritto l'IA da zero per l'affidabilità. Risultato: un modello volutamente più piccolo ed economico, ma che rifiuta di rispondere quando non è sicuro — invece di inventare. Genesys, che gestisce il servizio clienti di 8.000 organizzazioni, lo usa già. La scommessa: sostituire i call center esternalizzati (un mercato da 600 miliardi di dollari) con una forza lavoro IA che l'azienda possiede e gestisce direttamente.

04

Il creatore di Spring lancia Embabel, un ponte tra 20 anni di codice Java e gli agenti IA

Se lavori in una grande banca, in una compagnia assicurativa o in un ministero, la tua IT quasi certamente gira su Java — e da molto tempo. Rod Johnson, il creatore del famoso framework Spring, ha presentato il 9 aprile Embabel, un nuovo strumento gratuito e open source (Apache 2.0) scritto in Kotlin, pienamente compatibile con Java, che permette a queste organizzazioni di costruire agenti IA senza dover riscrivere tutto. L'idea: lasciare che l'IA decida solo ciò che sa fare bene, e mantenere per il resto una pianificazione classica — la stessa usata nei videogiochi dagli anni '90. Ogni decisione dell'agente resta spiegabile e verificabile, cosa cruciale nei settori regolamentati. Per i 20 milioni di sviluppatori Java nel mondo, è il modo più credibile di portare gli agenti IA nei sistemi che fanno girare l'economia reale — senza ripartire da zero.

05

Un'IA open source impara da sola a organizzare meglio il suo modo di scrivere codice

La maggior parte delle IA che scrivono codice si limita a rispondere alla domanda che viene loro posta. DeepReinforce, una giovane startup, ha pubblicato il 25 giugno la sua famiglia di modelli Ornith-1.0 con licenza MIT (gratuita, senza restrizioni) — e l'approccio è diverso: durante l'addestramento, il modello non impara solo a programmare, ma anche a migliorare il modo in cui organizza il proprio lavoro per programmare. Più si allena, più scopre migliori «percorsi di ricerca», un po' come uno studente che, nel corso dell'anno, impara non solo la materia ma anche come ripassare meglio. Il modello più grande (397 miliardi di parametri) raggiunge l'82,4% nel test di riferimento SWE-Bench Verified, davanti alla maggior parte dei modelli chiusi. E funziona con gli strumenti già usati dagli sviluppatori: OpenHands, Hermes Agent, OpenClaw. Per un team che vuole un agente che migliori col tempo, è un ingresso gratuito e senza vincoli.

📡 Da tenere d'occhio

I simulatori di ambienti stanno diventando una categoria infrastrutturale a sé

Qwen-AgentWorld (Alibaba) questa settimana, Patronus Digital Worlds la settimana scorsa, e già un benchmark dedicato: la categoria «mondo simulato per addestrare agenti» sta diventando un mercato a sé. Il segnale: addestrare un agente direttamente nel mondo reale costa troppo, richiede troppo tempo ed è troppo rischioso. Da tenere d'occhio nelle prossime settimane: chi tra OpenAI, Anthropic o Google DeepMind annuncerà il proprio simulatore di ambienti.

La sicurezza di default sta diventando un prerequisito per gli agenti aziendali

In quattro giorni, tre annunci sullo stesso tema: Microsoft richiede l'approvazione umana di default (25 giugno), Runlayer raccoglie 30 milioni per diventare il pannello di controllo degli agenti (24 giugno), F5 acquista SurePath AI per la sicurezza (24 giugno). Il segnale è chiaro: senza uno strato di identità, permessi e audit, gli agenti in produzione diventano ingestibili. È lo stesso pivot della cybersecurity nel 2010 — prima un tema IT, poi una funzione critica in ogni azienda.

Affidabilità «costruita dal giorno uno» contro affidabilità «aggiunta dopo»

Scaled Cognition (100 milioni) e DeepReinforce (Ornith) scommettono entrambe che non si possa semplicemente attaccare un filtro di sicurezza a un modello generalista. La loro scommessa: l'affidabilità va progettata fin dall'inizio, non aggiunta dopo. Se una delle due mantiene le promesse in banca, sanità o assicurazioni, potrebbe rimescolare un mercato oggi dominato da pochi modelli generalisti.

L'open source batte i modelli chiusi nei compiti degli agenti

Con Ornith-1.0 (MIT, 82,4% su SWE-Bench Verified a 397B parametri) e Qwen-AgentWorld (Apache 2.0, primo su AgentWorldBench), l'open source ha raggiunto e superato i modelli chiusi sui benchmark specifici per gli agenti. Il segnale per i CTO: nei workflow agentici, i modelli specializzati ora battono quelli generalisti. La conseguenza per i budget: un motivo in più per non pagare a peso d'oro un modello chiuso quando uno libero fa meglio il compito specifico.

📊 Tendenza

Il 28 giugno 2026 segna la settimana in cui i pezzi mancanti dell'IA agentica si assemblano nello stesso momento. (1) Costo e realismo: Qwen-AgentWorld permette di addestrare un agente in un mondo simulato prima di toccare quello reale. (2) Sicurezza: Microsoft richiede l'approvazione umana di default, e accanto emerge un'intera nuova categoria di «governance degli agenti». (3) Affidabilità: Scaled Cognition (100 milioni) scommette su un'IA che rifiuta di rispondere quando non è sicura, invece di inventare. (4) Ponte verso l'esistente: Rod Johnson, con Embabel, offre a milioni di sviluppatori Java un ingresso agli agenti senza dover riscrivere tutto. (5) L'open source vince: DeepReinforce mostra che un modello libero può battere quelli chiusi sui benchmark degli agenti. Quando tutti questi pezzi appaiono insieme, l'economia degli agenti smette di essere un esperimento da laboratorio e diventa una vera industria.