Claude Sonnet 4.6 veröffentlicht! Die Weiterentwicklung von Sonnet 4.5 aus der Sicht eines Ingenieurs und die Stärke des „besten Preis-Leistungs-Verhältnisses"
Inhaltsverzeichnis
Hallo. Am 17. Februar 2026 hat Anthropic das neueste Modell der Claude-Sonnet-Reihe veröffentlicht: „Claude Sonnet 4.6".
Erst neulich habe ich den Artikel zum Release von Opus 4.6 geschrieben, und schon folgt das Update für die Sonnet-Linie. Ehrlich gesagt hatte ich schon beim Schreiben des Opus 4.6-Artikels das Gefühl, dass „Sonnet wohl auch bald kommen wird", und da ist es auch schon.
In diesem Artikel fasse ich die Merkmale von Sonnet 4.6 und die Änderungen gegenüber Sonnet 4.5 aus der Sicht eines Softwareentwicklers zusammen, basierend auf der offiziellen Ankündigung und dem System Card.
Was ist Claude Sonnet eigentlich für ein Modell?
Claude bietet drei Modell-Linien an: Haiku, Sonnet und Opus. Sonnet ist das dazwischen liegende „ausgewogene Modell", das sich durch ein optimales Verhältnis zwischen Leistung und Kosten auszeichnet.
Sonnet 4.5 war bereits ein sehr praxistaugliches Modell, wirkte aber im Vergleich zur Opus-Klasse in manchen Aspekten etwas schwächer. Das neue Sonnet 4.6 verringert diesen Abstand nun deutlich. In Benchmarks übertrifft es in einigen Fällen sogar Opus 4.5.
Die wichtigsten Neuerungen von Sonnet 4.6
1. Massive Steigerung der Coding-Fähigkeiten
Schauen wir uns zuerst den Punkt an, der für Entwickler am wichtigsten ist.
Um es vorwegzunehmen: Im Vergleich zum erst kürzlich veröffentlichten Opus 4.6 reicht es verständlicherweise nicht ganz an das Spitzenmodell heran. Auch in den Benchmarks liegt Opus 4.6 eine Stufe darüber, wie die spätere Vergleichstabelle zeigt. Bemerkenswert ist jedoch: „Es übertrifft Opus 4.5, das Flaggschiff der vorherigen Generation."
Laut offiziellen Angaben bevorzugten Entwickler, die das Modell vorab mit Claude Code testeten, Sonnet 4.6 gegenüber Sonnet 4.5 in etwa 70 % der Fälle. Und selbst im Vergleich zu Opus 4.5, dem bis November 2025 stärksten Modell, wurde Sonnet 4.6 mit einer Wahrscheinlichkeit von 59 % bevorzugt. Das bedeutet, dass mehr als die Hälfte der Entwickler der Meinung ist, dass Sonnet 4.6 besser ist als das Top-Modell der vorherigen Generation.
Dass ein Modell in der Preisklasse von Sonnet ($3/$15) die Leistung des vorherigen Opus-Modells übertrifft, ist eine Ansage.
Zusammenfassend lässt sich das Feedback der Nutzer zu den konkreten Verbesserungen wie folgt beschreiben:
- Liest den bestehenden Kontext gründlich, bevor Code geändert wird
- Vermeidet Redundanzen und nutzt gemeinsame Logik konsequent
- Weniger Over-Engineering und weniger „Schlampigkeit"
- Bessere Befolgung von Anweisungen
- Weniger Falschmeldungen („Erfolg") oder Halluzinationen
- Höhere Konsistenz bei Aufgaben mit mehreren Schritten
Besonders der Punkt „Kontext lesen vor der Änderung" ist etwas, das man bei der täglichen Arbeit mit Claude Code oder Cursor oft schmerzlich vermisst. Wer schon einmal erlebt hat, dass das Modell die Intention des bestehenden Codes ignoriert und einfach etwas Neues schreibt, wird sich über diese Verbesserung freuen.
2. Benchmarks: „Nah dran an Opus"
Ein Blick auf die Zahlen verdeutlicht, wie nah Sonnet 4.6 an die Opus-Klasse herangerückt ist.
| Benchmark | Sonnet 4.6 | Opus 4.6 | Sonnet 4.5 | Beschreibung |
|---|---|---|---|---|
| SWE-bench Verified | 79,6 % | 80,8 % | 77,2 % | Behebung realer Software-Bugs |
| Terminal-Bench 2.0 | 59,1 % | 65,4 % | 51,0 % | Coding-Aufgaben inklusive Terminal-Bedienung |
| OSWorld-Verified | 72,5 % | 72,7 % | 61,4 % | PC-Bedienung in realen Umgebungen |
| τ²-bench (Retail) | 91,7 % | 91,9 % | 86,2 % | Kundenservice-Interaktionen |
| GDPval-AA | 1633 | 1606 | 1276 | Wissensarbeit (Elo-Rating) |
| GPQA Diamond | 89,9 % | 91,3 % | 83,4 % | Wissenschaftliche Fragen auf Masterniveau |
| ARC-AGI-2 | 58,3 % | 68,8 % | 13,6 % | Logisches Schließen bei neuen Mustern |
Hinweis: Bei ARC-AGI-2 wurde unter „High Effort"-Bedingungen für Sonnet 4.6 sogar ein Wert von 60,4 % gemeldet (die 58,3 % in der Tabelle entsprechen dem „Max Effort"-Wert).
Aus dieser Tabelle lässt sich ablesen: „Je nach Fachgebiet ist Sonnet völlig ausreichend, während in anderen Fällen Opus die bessere Wahl bleibt." Betrachten wir dazu einige Beispiele.
Fälle, in denen Sonnet 4.6 ausreicht (oder sogar besser geeignet ist):
- Tägliche Bugfixes und Feature-Erweiterungen (SWE-bench: 79,6 % vs. 80,8 %) -- Der Unterschied beträgt nur 1,2 Prozentpunkte. Für Aufgaben wie „Issue übergeben und PR erstellen lassen" ist es wirtschaftlicher, das günstigere Sonnet zu nutzen.
- Automatisierung von Browser-Aktionen oder Formulareingaben (OSWorld: 72,5 % vs. 72,7 %) -- Faktisch identisch. Für Computer-Steuerungsaufgaben wie E2E-Testautomatisierung oder die Automatisierung interner Systeme reicht Sonnet völlig aus.
- Erstellung von Dokumenten oder Angebotsentwürfen (GDPval-AA: 1633 vs. 1606) -- Hier schneidet Sonnet sogar besser ab. Praktische Büroarbeit ist eine Stärke von Sonnet.
- Aufbau von Kundensupport-Bots (τ²-bench: 91,7 % vs. 91,9 %) -- Nahezu gleichwertig. Bei Support-Agenten, die eine große Menge an Anfragen verarbeiten, ist Sonnet aufgrund des Preisvorteils die erste Wahl.
Fälle, in denen man Opus 4.6 wählen sollte:
- Agenten mit komplexen Terminal-Operationen (Terminal-Bench: 59,1 % vs. 65,4 %) -- Ein Unterschied von über 6 Punkten. Wenn es um den Aufbau von CI/CD-Pipelines oder die Automatisierung von Infrastruktur geht, bei der lange Befehlsketten präzise ausgeführt werden müssen, bietet Opus mehr Stabilität.
- Komplexes logisches Schließen bei unbekannten Mustern (ARC-AGI-2: 58,3 % vs. 68,8 %) -- Über 10 Punkte Unterschied. Bei völlig neuen Architektur-Designs oder schwierigen Problemen, für die es keine Standardlösung gibt, spielt Opus seine Stärke aus.
- Fachliche Entscheidungen in hochkomplexen Bereichen (GPQA Diamond: 89,9 % vs. 91,3 %) -- Der Unterschied ist zwar klein, aber in Bereichen wie Medizin, Recht oder Wissenschaft, in denen Fehler fatale Folgen haben können, bietet die höhere Präzision von Opus zusätzliche Sicherheit.
Natürlich sind dies nur Tendenzen aus den Benchmarks. In der Praxis kann sich der Eindruck je nach Prompting und Art der Aufgabe stark ändern. Man sollte die Werte als Orientierungshilfe nehmen und im eigenen Anwendungsfall beide Modelle testen.
3. 1-Million-Token-Kontextfenster (Beta)
Sonnet 4.6 unterstützt ein Kontextfenster von 1 Million Token (Beta). Zwar war das 1M-Kontextfenster bereits für Sonnet 4.5 in der Beta verfügbar, der entscheidende Unterschied in der Praxis ist jedoch, dass Sonnet 4.6 die Qualität des logischen Schließens bei sehr langem Kontext weiter verbessert hat.
Es geht nicht nur darum, eine ganze Codebasis, umfangreiche Verträge oder dutzende wissenschaftliche Arbeiten in einen Request zu packen, sondern darum, über diesen gesamten Kontext hinweg effektiv Schlussfolgerungen ziehen zu können.
Ein interessantes Beispiel, das offiziell vorgestellt wurde, ist die Vending-Bench Arena. Dies ist ein Benchmark, bei dem AI-Modelle ein (simuliertes) Unternehmen über einen langen Zeitraum führen und um Gewinne konkurrieren. Sonnet 4.6 entwickelte dabei eine eigene Strategie: In den ersten 10 Monaten wurde massiv in Investitionsgüter investiert, um am Ende die Rentabilität sprunghaft zu steigern - eine Strategie, mit der es andere Modelle weit hinter sich ließ.
Solche langfristigen Planungen und Entscheidungen sind ein direkter Vorteil des großen Kontextfensters.
4. Massive Fortschritte bei der Computer-Steuerung (Computer Use)
Ein weiteres Highlight von Sonnet 4.6 ist die Weiterentwicklung der Computer-Steuerung.
Wie bereits erwähnt, erreicht das Modell bei OSWorld-Verified 72,5 %. Als im Oktober 2024 mit Claude 3.5 Sonnet das erste Modell mit Computer-Steuerung erschien, lag der Score noch im 10 %-Bereich. Dass innerhalb von etwa 16 Monaten die 70 %-Marke erreicht wurde, zeigt die enorme Geschwindigkeit der Verbesserung.
Entwickler, die Vorabzugriff hatten, berichten von „menschenähnlichen Fähigkeiten" bei der Navigation in komplexen Tabellenkalkulationen oder bei mehrstufigen Web-Formularen. Auch Aufgaben, bei denen Informationen über mehrere Browser-Tabs hinweg aggregiert werden müssen, können nun bewältigt werden.
Gleichzeitig wurde die Widerstandsfähigkeit gegen Prompt-Injection-Angriffe im Vergleich zu Sonnet 4.5 deutlich verbessert. Da die Computer-Steuerung Sicherheitsrisiken birgt, ist dieser Punkt für den produktiven Einsatz essenziell.
5. Adaptive Thinking und Effort-Steuerung
Die mit Opus 4.6 eingeführte Funktion „Adaptive Thinking" (bei der das Modell die Tiefe seines Denkprozesses selbst anpasst) wird nun auch von Sonnet 4.6 unterstützt.
Zudem ist der bekannte „Extended Thinking"-Modus verfügbar, sodass man je nach Anwendungszweck wählen kann.
Die offizielle Empfehlung lautet: „Sonnet 4.6 liefert auch ohne Extended Thinking eine starke Performance. Nutzer sollten experimentieren, um die beste Balance zwischen Geschwindigkeit und Leistung zu finden."
Das bedeutet: Man nutzt das Modell ohne Thinking für hohe Geschwindigkeit -> erhöht den „Effort" für schwierigere Aufgaben -> und wechselt zu Opus 4.6, wenn maximale Denkleistung erforderlich ist.
6. Context Compaction (Kontext-Kompaktierung, Beta)
Wie bei Opus 4.6 ist auch bei Sonnet 4.6 die „Context Compaction" als Beta verfügbar. Dabei werden ältere Inhalte automatisch zusammengefasst, wenn der Kontext sein Limit erreicht.
Dass der Kontext bei lang laufenden Agenten-Aufgaben überläuft, gehört für Entwickler zum Alltag. Diese Funktion dürfte die Häufigkeit, mit der man eine Konversation mitten in der Sitzung zurücksetzen muss, erheblich reduzieren.
Vergleichstabelle: Sonnet 4.5 vs. Sonnet 4.6
Hier sind die für Entwickler relevanten Spezifikationen im Überblick:
| Merkmal | Sonnet 4.5 | Sonnet 4.6 |
|---|---|---|
| Kontextfenster | 200K (Standard) + 1M (Beta) | 200K (Standard) + 1M (Beta) |
| Adaptive Thinking | Nein | Ja |
| Extended Thinking | Ja | Ja |
| Computer-Steuerung | Unterstützt (OSWorld 61,4 %) | Massiv verbessert (OSWorld 72,5 %) |
| SWE-bench Verified | 77,2 % | 79,6 % |
| Preis (Input/Output) | $3/$15 pro 1M Token | $3/$15 pro 1M Token (unverändert) |
Quelle (offiziell): Introducing Sonnet 4.6 / Claude Sonnet 4.6 System Card / Models overview
Dass der Preis im Vergleich zu Sonnet 4.5 bei $3/$15 pro 1M Token bleibt, ist angesichts der Leistungssteigerung ein beeindruckendes Preis-Leistungs-Verhältnis. Im Vergleich zu den $5/$25 von Opus 4.6 ist es deutlich günstiger.
Die Positionierung von Sonnet 4.6 - Mehr Auswahlmöglichkeiten
Persönlich werde ich Opus 4.6 weiterhin als Hauptmodell nutzen. In puncto Tiefe der Argumentation und Stabilität im Agenten-Betrieb hat Opus immer noch die Nase vorn, und gerade in entscheidenden Momenten beim Coding merkt man den Unterschied.
Dennoch ist es ein großer Gewinn, dass man sich mit Sonnet 4.6 nun öfter fragen kann: „Muss ich für diese Aufgabe wirklich Opus nutzen?". In folgenden Fällen ist es absolut sinnvoll, auf Sonnet 4.6 zu setzen, um Kosten zu sparen:
- Agenten mit hohem Durchsatz -- Nahezu identische Leistung bei 40 % geringeren Kosten für Input und Output. Bei hohen Volumina summiert sich das.
- Frontend-Entwicklung -- Das Gespür für Design wird von Partnern besonders gelobt.
- Verständnis von Dokumenten -- Bei OfficeQA erreicht es Scores auf dem Niveau von Opus 4.6.
- Computer-Steuerung -- Bei OSWorld liegt es fast gleichauf mit Opus 4.6.
Andererseits bleibt Opus 4.6 laut Anthropic das Modell der Wahl für Aufgaben, die tiefste Denkleistung erfordern, wie das Refactoring großer Codebasen oder die Koordination von Workflows zwischen mehreren Agenten. Da mein eigener Entwicklungsstil oft solche Szenarien umfasst, wird Opus mein Zentrum bleiben, aber die Möglichkeit, Sonnet gezielt einzumischen, um die Gesamtkosten zu optimieren, ist sehr willkommen.
Produkt-Updates
Zusammen mit dem Release von Sonnet 4.6 wurden auch einige Produkt-Updates angekündigt.
Erweiterung der kostenlosen Pläne
In den Free- und Pro-Plänen von claude.ai und Claude Cowork ist Sonnet 4.6 nun das Standardmodell. Zudem können nun auch Nutzer des kostenlosen Plans Funktionen wie Dateierstellung, Connectors, Skills und Compaction nutzen.
Das ist eine bedeutende Änderung, da nun auch Gratis-Nutzer eine sehr praxisnahe Entwicklungserfahrung machen können.
API-Tools jetzt final (GA)
Die folgenden API-Tools, die bisher im Beta-Status waren, sind nun offiziell verfügbar (General Availability):
- Code Execution (Code-Ausführung)
- Memory (Gedächtnis)
- Programmatic Tool Calling (Programmatischer Tool-Aufruf)
- Tool Search (Tool-Suche)
- Tool Use Examples (Bereitstellung von Tool-Nutzungsbeispielen)
Zudem wurde ein Mechanismus hinzugefügt, bei dem die Web Search- und Fetch-Tools automatisch Code ausführen, um Suchergebnisse zu filtern, was sowohl die Antwortqualität als auch die Token-Effizienz verbessert.
Claude in Excel unterstützt MCP-Connectors
Das Excel-Add-in unterstützt nun MCP-Connectors, sodass Daten von externen Tools (wie S&P Global, LSEG, PitchBook etc.) direkt in Excel referenziert werden können. In claude.ai konfigurierte MCP-Connectors können direkt übernommen werden.
Über die Sicherheit
Sonnet 4.6 gewährleistet laut Anthropic ein Sicherheitsniveau, das mindestens dem der bisherigen Claude-Modelle entspricht.
Im System Card bewerten Sicherheitsforscher Sonnet 4.6 als einen Charakter, der „warmherzig, ehrlich, sozial und zeitweise humorvoll ist, ein sehr starkes Sicherheitsverhalten zeigt und keine Anzeichen für riskantes Misalignment aufweist".
In einigen Alignment-Metriken (die messen, wie sehr das Verhalten des Modells den menschlichen Absichten entspricht, z. B. „Lügt es nicht?", „Gibt es keine falschen Antworten, nur um dem Nutzer zu gefallen?", „Handelt es nicht eigenmächtig über Anweisungen hinaus?") erzielt es angeblich die besten Werte aller bisherigen Claude-Modelle.
Zudem ist die Widerstandsfähigkeit gegen Prompt-Injection bei der Computer-Steuerung im Vergleich zu Sonnet 4.5 massiv gestiegen und liegt nun auf dem Niveau von Opus 4.6.
Bewertungen von Partnerunternehmen
In der offiziellen Ankündigung finden sich zahlreiche Kommentare von Partnerunternehmen. Hier einige Highlights für Entwickler:
„Claude Sonnet 4.6 liefert Ergebnisse auf Frontier-Niveau bei komplexen App-Builds und Bugfixes. Es wird zu unserer ersten Wahl für tiefe Arbeiten an der Codebasis, für die früher teurere Modelle nötig waren."
Dieser Kommentar unterstreicht, dass Sonnet 4.6 für anspruchsvolle Coding-Aufgaben zum Standard werden könnte.
„Claude Sonnet 4.6 hat den besten iOS-Code generiert, den wir je für Rakuten AI getestet haben. Bessere Einhaltung von Spezifikationen, bessere Architektur, und es hat von sich aus moderne Tools genutzt, nach denen wir gar nicht gefragt hatten - und das alles im ersten Versuch. Die Ergebnisse haben uns wirklich überrascht."
Rakuten AI lobt die hohe Qualität und die Fähigkeit, direkt im ersten Anlauf produktionsreifen Code zu liefern.
„Claude Sonnet 4.6 beweist perfekten Designgeschmack beim Erstellen von Frontend-Seiten und Datenberichten und benötigt weit weniger Anleitung als alles andere, was wir bisher getestet haben."
Die Qualität der UI-Generierung scheint eine Verbesserung zu sein, die von vielen Nutzern unabhängig voneinander bestätigt wird.
Fazit
Claude Sonnet 4.6 ist ein Update, das die Wahrnehmung von Sonnet als bloßes „preiswertes Zweitmodell" grundlegend ändert.
- Coding-Fähigkeiten übertreffen Opus 4.5 und rücken nah an Opus 4.6 heran.
- Bei OSWorld und Dokumentenverständnis faktisch gleichauf mit Opus 4.6.
- 1-Million-Token-Kontextfenster (Beta).
- Unterstützt Adaptive Thinking und Effort-Steuerung.
- Standardmodell auch im kostenlosen Plan.
- Preise bleiben trotz massiver Verbesserungen gleich.
Das Bild von „teures, starkes Opus" vs. „günstiges, mittelmäßiges Sonnet" gehört der Vergangenheit an. Sonnet 4.6 ist ein Modell, das „günstig und extrem stark" ist.
Über die API ist es unter claude-sonnet-4-6 verfügbar, und auf claude.ai kann es bereits im kostenlosen Plan getestet werden. Es lohnt sich definitiv, die Unterschiede zu Opus 4.6 selbst auszuprobieren.