Daglig briefing

28. juni 2026 · 5 nyheder (site) · 6 nyheder (base)

🔥 I fokus

Alibaba udgiver en simulator, der forudsiger, hvad der sker, før agenten handler

Før en selvkørende bil slippes ud på vejen, trænes den først på millioner af simulerede kilometer. Alibaba (Qwen) udgav i denne uge Qwen-AgentWorld, der gør det samme for AI-agenter. Systemet gætter på forhånd, hvad en terminal, en browser, en Android-telefon, et tredjepartsværktøj eller et koderepos vil returnere — før agenten overhovedet sender den rigtige kommando. Resultat: agenten kan træne, teste og rette sig selv uden nogensinde at ødelægge et rigtigt system. 397B-modellen slår endda GPT-5.4 i teamets egen test, og det hele er udgivet som open source (Apache 2.0-licens). For et team, der vil have en agent i produktion, er det løftet om en sandkasse i fuld størrelse — som om hver agent havde sin egen testbane før den åbne vej.

Source: github.com/QwenLM/Qwen-AgentWorld

Microsoft kræver nu menneskelig godkendelse før hver agenthandling

Indtil nu kunne en virksomhedsagent slette en fil, sende en e-mail eller ændre i en database, uden at nogen opdagede det. Microsoft opdaterede 25. juni deres Microsoft Agent Framework til version 1.11.1 og ændrede reglen: som standard kræver hvert værktøj, en agent bruger, nu udtrykkelig menneskelig godkendelse. I praksis kan ingen følsom handling længere udløses af sig selv. Også på menuen: Telegram bliver en officiel kanal til at hoste en agent, og integrationen med GitHub Copilot går til stabil. Projektet tæller allerede 11.700 stjerner på GitHub og er ved at blive en af referencerammerne for virksomhedsagenter. Det er lidt, som om man endelig havde installeret en "bekræft"-knap på hver elkabel i en fabrik — agenten forbliver kraftfuld, men intet udløses af sig selv.

Source: github.com/microsoft/agent-framework/releases

Scaled Cognition rejser 100 millioner for at bygge AI, der hellere tier end finder på

Når du ringer til din bank for at bestride en overførsel, vil du ikke høre en agent, der improviserer. Og dog tager generelle AI-modeller fejl omkring hver tredje gang i produktion — hvilket er uacceptabelt for bank, sundhedsvæsen og forsikring. Scaled Cognition rejste 100 millioner dollars 25. juni (ledet af Khosla Ventures) for fra grunden at bygge en model, der forpligter sig til aldrig at give et forkert svar. I stedet for at klæbe et sikkerhedsfilter på en eksisterende model, skrev virksomheden AI'en om fra bunden til pålidelighed. Resultat: en model, der bevidst er mindre og billigere, men som nægter at svare, når den ikke er sikker — i stedet for at finde på. Genesys, der driver kundeservice for 8.000 organisationer, bruger den allerede. Indsatsen: at erstatte udliciterede callcentre (et marked til 600 milliarder dollars) med en AI-arbejdsstyrke, som virksomheden selv ejer og styrer.

Source: globenewswire.com — Scaled Cognition $100M

Spring-skaberen lancerer Embabel, en bro mellem 20 års Java-kode og AI-agenter

Hvis du arbejder i en stor bank, et forsikringsselskab eller et ministerium, kører din IT næsten helt sikkert på Java — og har gjort det længe. Rod Johnson, skaberen af det berømte Spring-framework, præsenterede 9. april Embabel — et nyt gratis open source-værktøj (Apache 2.0), skrevet i Kotlin, fuldt kompatibelt med Java, der lader disse organisationer bygge AI-agenter uden at omskrive alt. Idéen: lad AI'en kun beslutte det, den er god til, og behold klassisk planlægning til resten — den samme slags planlægning, som er brugt i videospil siden 1990'erne. Hver beslutning, agenten tager, forbliver forklarbar og sporbart, hvilket er afgørende i regulerede brancher. For de 20 millioner Java-udviklere i verden er det den mest troværdige vej til at bringe AI-agenter ind i de systemer, der driver den virkelige økonomi — uden at starte forfra.

Source: github.com/embabel/embabel-agent

En open source-AI lærer af sig selv at organisere sin måde at skrive kode bedre

De fleste AI'er, der skriver kode, nøjes med at svare på det spørgsmål, de får stillet. DeepReinforce, et ungt startup, udgav 25. juni deres Ornith-1.0-modelfamilie under MIT-licens (gratis, ingen begrænsninger) — og tilgangen er anderledes: under træningen lærer modellen ikke kun at programmere, men også at forbedre den måde, den organiserer sit arbejde på for at programmere. Jo mere den træner, jo flere bedre "forskningsstier" opdager den — lidt som en studerende, der i løbet af skoleåret ikke kun lærer stoffet, men også lærer at læse bedre op. Den største model (397 milliarder parametre) når 82,4 % på referencetesten SWE-Bench Verified, foran de fleste lukkede modeller. Og den fungerer med de værktøjer, udviklere allerede bruger: OpenHands, Hermes Agent, OpenClaw. For et team, der vil have en agent, der forbedrer sig over tid, er det en gratis indgang uden betingelser.

Source: github.com/deepreinforce-ai/Ornith-1

📡 Hold øje med

Miljøsimulatorer er ved at blive deres egen infrastrukturkategori

Qwen-AgentWorld (Alibaba) i denne uge, Patronus Digital Worlds sidste uge, og allerede en dedikeret test: kategorien "simuleret verden til at træne agenter" er ved at blive sit eget marked. Signalet: at træne en agent direkte i den virkelige verden koster for meget, tager for lang tid og er for risikabelt. Værd at holde øje med i de kommende uger: hvilken af OpenAI, Anthropic eller Google DeepMind der vil annoncere deres egen miljøsimulator.

Sikkerhed som standard er ved at blive en forudsætning for virksomhedsagenter

På fire dage tre meddelelser om det samme emne: Microsoft kræver som standard menneskelig godkendelse (25. juni), Runlayer rejser 30 millioner for at blive kontrollpanelet for agenter (24. juni), F5 køber SurePath AI for sikkerhed (24. juni). Signalet er klart: uden et lag af identitet, tilladelser og revision bliver agenter i produktion ukontrollable. Det er det samme drej som cybersikkerheden tog i 2010'erne — først et IT-emne, siden en kritisk funktion i hver virksomhed.

Pålidelighed "indbygget fra dag ét" mod pålidelighed "påklistret bagefter"

Både Scaled Cognition (100 millioner) og DeepReinforce (Ornith) satser på, at man ikke bare kan klæbe et sikkerhedsfilter på en generel model. Deres indsats: pålidelighed skal designes ind fra starten, ikke tilføjes bagefter. Hvis en af dem leverer i bank, sundhedsvæsen eller forsikring, kan det blande et marked, der i dag domineres af få generelle modeller.

Open source slår lukkede modeller på agentopgaver

Med Ornith-1.0 (MIT, 82,4 % på SWE-Bench Verified med 397B parametre) og Qwen-AgentWorld (Apache 2.0, først på AgentWorldBench) har open source indhentet og overhalet lukkede modeller på agentspecifikke test. Signalet til CTO'er: på agent-workflows slår specialiserede modeller nu de generelle. Budgetkonsekvensen: endnu et argument for ikke at betale toppris for en lukket model, når en fri gør den specifikke opgave bedre.

📊 Tendens

28. juni 2026 markerer den uge, hvor de manglende brikker i agentisk AI samles på én gang. (1) Omkostning og realisme: Qwen-AgentWorld lader dig træne en agent i en simuleret verden, før du rører den virkelige. (2) Sikkerhed: Microsoft kræver som standard menneskelig godkendelse, og ved siden af vokser en helt ny kategori "agentstyring" frem. (3) Pålidelighed: Scaled Cognition (100 millioner) satser på AI, der nægter at svare, når den ikke er sikker, i stedet for at finde på. (4) Bro til det eksisterende: Rod Johnson giver med Embabel millioner af Java-udviklere en vej ind i agenter uden at omskrive alt. (5) Open source vinder: DeepReinforce viser, at en fri model kan slå lukkede på agent-test. Når alle disse brikker dukker op på én gang, holder agentøkonomien op med at være et laboratorieeksperiment og bliver en rigtig industri.