The Agent Watch
Briefing Artikel Werkzeuge Über uns EN FR DE ES 中文 IT PT SV FI DA

Tägliches Briefing

28. Juni 2026 · 5 Meldungen (Site) · 6 Meldungen (Basis)

🔥 Auf der Eins

01

Alibaba bringt einen Simulator heraus, der vorhersagt, was passiert, bevor ein Agent handelt

Bevor ein selbstfahrendes Auto auf die Straße darf, trainiert es zunächst Millionen simulierter Kilometer. Alibaba (Qwen) hat diese Woche Qwen-AgentWorld veröffentlicht, das dasselbe für KI-Agenten tut. Das System errät im Voraus, was ein Terminal, ein Browser, ein Android-Telefon, ein Drittanbieter-Tool oder ein Code-Repository zurückgeben werden — bevor der Agent den eigentlichen Befehl überhaupt sendet. Ergebnis: Der Agent kann trainieren, testen und sich korrigieren, ohne je ein echtes System zu beschädigen. Das 397B-Modell schlägt sogar GPT-5.4 im hauseigenen Benchmark, und alles ist als Open Source (Apache 2.0) veröffentlicht. Für ein Team, das einen Agenten in Produktion bringen will, ist es das Versprechen einer vollwertigen Sandkiste — als hätte jeder Agent seine eigene Teststrecke vor der offenen Straße.

02

Microsoft verlangt jetzt eine menschliche Bestätigung vor jeder Agentenaktion

Bis jetzt konnte ein Unternehmens-Agent eine Datei löschen, eine E-Mail senden oder eine Datenbank ändern, ohne dass jemand es merkte. Microsoft hat am 25. Juni sein Microsoft Agent Framework auf Version 1.11.1 aktualisiert und die Regel geändert: Standardmäßig erfordert jedes von einem Agenten genutzte Werkzeug jetzt eine ausdrückliche menschliche Genehmigung. In der Praxis kann keine sensible Aktion mehr von selbst ausgelöst werden. Ebenfalls auf der Speisekarte: Telegram wird zum offiziellen Kanal für das Hosten eines Agenten, und die GitHub-Copilot-Integration wird stabil. Das Projekt zählt bereits 11.700 Sterne auf GitHub und wird zu einer der Referenzgrundlagen für Unternehmens-Agenten. Es ist, als würde man endlich einen „Bestätigen"-Knopf an jedem Stromkabel einer Fabrik installieren — der Agent bleibt mächtig, aber nichts löst sich mehr von selbst aus.

03

Scaled Cognition sammelt 100 Mio. $, um KI zu bauen, die lieber schweigt als zu erfinden

Wenn Sie Ihre Bank anrufen, um eine Überweisung zu beanstanden, möchten Sie keinen Agenten hören, der improvisiert. Und doch irren sich allgemeine KI-Modelle in der Produktion etwa einmal von drei Mal — was für Banken, Gesundheitswesen oder Versicherungen inakzeptabel ist. Scaled Cognition hat am 25. Juni 100 Millionen Dollar (unter Führung von Khosla Ventures) eingesammelt, um von Grund auf ein Modell zu bauen, das sich verpflichtet, nie eine falsche Antwort zu geben. Statt einen Sicherheitsfilter auf ein bestehendes Modell zu setzen, hat das Unternehmen die KI für Zuverlässigkeit von Grund auf neu geschrieben. Ergebnis: ein Modell, das bewusst kleiner und günstiger ist, aber die Antwort verweigert, wenn es sich nicht sicher ist — statt etwas zu erfinden. Genesys, das den Kundenservice für 8.000 Organisationen betreibt, nutzt es bereits. Die Wette: ausgelagerte Callcenter (ein 600-Milliarden-Dollar-Markt) durch eine KI-Belegschaft ersetzen, die das Unternehmen besitzt und selbst steuert.

04

Der Erfinder von Spring bringt Embabel auf den Weg, eine Brücke zwischen 20 Jahren Java-Code und KI-Agenten

Wenn Sie in einer großen Bank, einer Versicherung oder einer Behörde arbeiten, läuft Ihre IT mit ziemlicher Sicherheit auf Java — und das schon lange. Rod Johnson, der Erfinder des berühmten Spring-Frameworks, hat am 9. April Embabel vorgestellt — ein neues kostenloses Open-Source-Werkzeug (Apache 2.0), geschrieben in Kotlin, vollständig kompatibel mit Java, das diesen Organisationen ermöglicht, KI-Agenten zu bauen, ohne alles neu zu schreiben. Die Idee: die KI nur das entscheiden lassen, was sie gut kann, und für den Rest klassische Planung verwenden — dieselbe Art von Planung, die in Videospielen seit den 1990ern verwendet wird. Jede Entscheidung des Agenten bleibt erklärbar und überprüfbar, was in regulierten Branchen entscheidend ist. Für die 20 Millionen Java-Entwickler weltweit ist es der glaubwürdigste Weg, KI-Agenten in die Systeme zu bringen, die die reale Wirtschaft antreiben — ohne bei Null anzufangen.

05

Eine Open-Source-KI lernt von selbst, ihre Arbeitsweise beim Coden besser zu organisieren

Die meisten KIs, die Code schreiben, beantworten nur die Frage, die man ihnen stellt. DeepReinforce, ein junges Startup, hat am 25. Juni seine Modellfamilie Ornith-1.0 unter MIT-Lizenz (kostenlos, ohne Einschränkungen) veröffentlicht — und der Ansatz ist anders: Während des Trainings lernt das Modell nicht nur zu programmieren, sondern auch, die Art und Weise zu verbessern, wie es seine Arbeit zum Programmieren organisiert. Je mehr es trainiert, desto mehr entdeckt es bessere „Recherche-Pfade" — ein bisschen wie ein Schüler, der im Laufe des Schuljahres nicht nur den Stoff lernt, sondern auch, wie man besser wiederholt. Das größte Modell (397 Milliarden Parameter) erreicht 82,4 % beim SWE-Bench-Verified-Referenztest und schlägt damit die meisten geschlossenen Modelle. Und es funktioniert mit den Werkzeugen, die Entwickler bereits nutzen: OpenHands, Hermes Agent, OpenClaw. Für ein Team, das einen Agenten will, der sich mit der Zeit verbessert, ist es ein kostenloser Einstieg ohne Bedingungen.

📡 Im Auge behalten

Umgebungssimulatoren werden zu einer eigenen Infrastrukturkategorie

Qwen-AgentWorld (Alibaba) in dieser Woche, Patronus Digital Worlds letzte Woche, und bereits ein eigener Benchmark: Die Kategorie „simulierte Welt zum Trainieren von Agenten" wird zu einem eigenen Markt. Das Signal: einen Agenten direkt in der realen Welt zu trainieren kostet zu viel, dauert zu lange und ist zu riskant. In den kommenden Wochen zu beobachten: welches von OpenAI, Anthropic oder Google DeepMind wird seinen eigenen Umgebungssimulator ankündigen.

Sicherheit per Standard wird zur Voraussetzung für Unternehmens-Agenten

In vier Tagen drei Ankündigungen zum selben Thema: Microsoft verlangt standardmäßig menschliche Genehmigung (25. Juni), Runlayer sammelt 30 Mio. $, um das Kontrollpanel für Agenten zu werden (24. Juni), F5 kauft SurePath AI für Sicherheit (24. Juni). Das Signal ist klar: ohne Identitäts-, Berechtigungs- und Audit-Schicht werden Agenten in der Produktion unkontrollierbar. Es ist derselbe Pivot wie die Cybersicherheit in den 2010ern — zunächst ein IT-Thema, dann eine kritische Funktion in jedem Unternehmen.

Zuverlässigkeit „von Anfang an eingebaut" vs. „nachgerüstet"

Scaled Cognition (100 Mio. $) und DeepReinforce (Ornith) wetten beide darauf, dass man nicht einfach einen Sicherheitsfilter auf ein allgemeines Modell kleben kann. Ihre Wette: Zuverlässigkeit muss von Anfang an entworfen werden, nicht nachträglich hinzugefügt. Wenn eines von beiden in Banken, Gesundheitswesen oder Versicherungen liefert, könnte es einen Markt neu mischen, der derzeit von wenigen allgemeinen Modellen dominiert wird.

Open Source schlägt geschlossene Modelle bei Agentenaufgaben

Mit Ornith-1.0 (MIT, 82,4 % bei SWE-Bench Verified mit 397B Parametern) und Qwen-AgentWorld (Apache 2.0, erster Platz bei AgentWorldBench) hat Open Source die geschlossenen Modelle bei agentenspezifischen Benchmarks eingeholt und überholt. Das Signal für CTOs: bei Agent-Workflows schlagen spezialisierte Modelle jetzt die allgemeinen. Die Budgetfolge: ein weiteres Argument, nicht zum Höchstpreis für ein geschlossenes Modell zu zahlen, wenn ein freies Modell die spezifische Aufgabe besser erledigt.

📊 Trend

Der 28. Juni 2026 markiert die Woche, in der die fehlenden Teile der agentischen KI gleichzeitig zusammengesetzt werden. (1) Kosten und Realismus: Qwen-AgentWorld ermöglicht es, einen Agenten in einer simulierten Welt zu trainieren, bevor man die echte berührt. (2) Sicherheit: Microsoft verlangt standardmäßig menschliche Genehmigung, und daneben entsteht eine ganze neue Kategorie „Agent-Governance". (3) Zuverlässigkeit: Scaled Cognition (100 Mio. $) wettet auf KI, die lieber schweigt als zu erfinden, wenn sie sich nicht sicher ist. (4) Brücke zum bestehenden Stack: Rod Johnson gibt mit Embabel Millionen von Java-Entwicklern einen Weg zu Agenten, ohne alles neu zu schreiben. (5) Open Source gewinnt: DeepReinforce zeigt, dass ein freies Modell geschlossene Modelle bei Agent-Benchmarks schlagen kann. Wenn alle diese Teile gleichzeitig erscheinen, hört die Agentenwirtschaft auf, ein Labor-Experiment zu sein, und wird zu einer echten Industrie.