Briefing giornaliero
16 giu 2026 · 6 notizie (sito) · 9 notizie (base)
🔥 In primo piano
Claude Managed Agents in sandbox self-hosted
Anthropic ora consente agli agenti gestiti di eseguire tool in un container controllato dal cliente, dietro il suo firewall. Solo connessioni in uscita. Server MCP privati supportati. Il tassello mancante per i settori regolamentati: sanità, finanza, legale.
Claude Agent SDK — credito mensile separato dal 15 giugno
Agent SDK e claude -p non interattivo ora attingono a un credito mensile distinto: $20 (Pro), $100 (Max 5x), $200 (Max 20x). Credito non riportabile. Cambiamento strutturale per i team che costruiscono su Claude.
Guerra dei framework agent — stato giugno 2026
Microsoft Agent Framework 1.0 GA (fusione AutoGen + Semantic Kernel). CrewAI: 52,4k stelle, 2 miliardi di esecuzioni in 12 mesi. Google ADK in 4 linguaggi. MCP supera 200 server. ACP si fonde in A2A sotto Linux Foundation.
EVA-Bench Data 2.0 — primo benchmark completo per agenti
ServiceNow-AI pubblica un benchmark esteso per valutare gli agenti IA: 3 domini, 121 tool, 213 scenari. Misura selezione tool, ragionamento multi-step, recupero errori ed efficienza delle risorse.
Holo3.1 — agente computer-use completamente locale, pesi aperti
H Company pubblica un agente che controlla GUI interamente su hardware consumer — nessun cloud necessario. Automazione tastiera/mouse, interazione schermo. Pesi aperti, varianti 0.8B-35B su Hugging Face.
IBM Research: la logica agentica conta più della potenza LLM
IBM sostiene che il successo in produzione dipenda da una solida logica agentica, non solo dal modello. Quattro pilastri: ragionamento multi-step con fallback, interazione affidabile coi sistemi, gestione stato a lungo termine, gestione elegante degli errori.
Gemma 4 12B — lo stack agentico di coding 100% locale supera il test
DevArt ha testato Gemma 4 12B con Ollama + OpenCode su task reali: landing page, bug fix, generazione UI, mini-gioco — tutto locale, zero API key. Il creatore ammette di essersi sbagliato: questo stack locale funziona davvero. Alternativa credibile al coding agentico su cloud.
📡 Da tenere d'occhio
Sandbox self-hosted Anthropic — primi segnali
Monitorare i tassi di adozione in finanza e sanità. Se la sandbox self-hosted supera gli ostacoli di conformità, potrebbe sbloccare il deployment di agenti enterprise su larga scala.
Rilascio pesi MiniMax M3
Se MiniMax pubblica i pesi M3 come promesso, sarà il primo modello open-weight a eguagliare i frontier chiusi su SWE-Bench Pro (59%). Una svolta epocale per lo sviluppo agentico open-source.
📊 Tendenza
La battaglia si sposta dal "miglior modello" al "miglior ecosistema agent". Infrastruttura self-hosted, fatturazione dedicata, consolidamento framework e benchmark specifici per agenti maturano simultaneamente. Lo stack agent diventa una categoria di prodotto.