Startseite
/
Webentwicklung
/
Claude Opus 4.6 veröffentlicht! Die wichtigsten Neuerungen gegenüber Opus 4.5 aus der Sicht eines Ingenieurs

Claude Opus 4.6 veröffentlicht! Die wichtigsten Neuerungen gegenüber Opus 4.5 aus der Sicht eines Ingenieurs

2026-02-06

43Min. Lesezeit

Aktualisiert: 2026-03-15

hf_20260206_015813_f84ca8d4-c424-43d6-be98-f29a2c1f02f8.webp

Inhaltsverzeichnis

Hallo. Am 5. Februar 2026 (6. Februar japanischer Zeit) hat Anthropic das neueste Modell von Claude, „Claude Opus 4.6", veröffentlicht.

Als jemand, der Claude regelmäßig als Begleiter bei der Entwicklung nutzt, ist die Veröffentlichung eines neuen Modells immer aufregend. Um es vorwegzunehmen: Dieses Update steckt voller „Entwicklungen, die Ingenieure sehr freuen werden".

In diesem Artikel möchte ich basierend auf der offiziellen Ankündigung die Merkmale von Opus 4.6 und die Veränderungen gegenüber Opus 4.5 aus der Sicht eines Ingenieurs zusammenfassen.

Was ist eigentlich Claude Opus?

Wie viele von Ihnen wissen, besteht das Claude-Lineup aus drei Modellen: Haiku, Sonnet und Opus. Opus ist dabei als das leistungsstärkste „Flaggschiff-Modell" (das Spitzenmodell) positioniert.

Das Vorgängermodell Opus 4.5 war bereits äußerst fähig, aber das neue Opus 4.6 macht einen weiteren großen Sprung nach vorne.

Die wichtigsten Entwicklungspunkte von Opus 4.6

1. Erhebliche Stärkung der Coding-Fähigkeiten

Für Ingenieure ist dies wohl der interessanteste Punkt.

Opus 4.6 hat im agentenbasierten Coding-Benchmark „Terminal-Bench 2.0" die höchste Punktzahl erzielt. Dies ist ein Benchmark, der praxisnahe Coding-Aufgaben bewertet, einschließlich tatsächlicher Terminal-Operationen.

Konkret wurden folgende Punkte verbessert:

Verbesserte Planung - Das Modell erstellt sorgfältigere Pläne, bevor es mit einer Aufgabe beginnt.
Ausdauer bei langwierigen Agenten-Aufgaben - Es verliert auch in langen Sitzungen nicht den Fokus.
Zuverlässigkeit in großen Codebasen - Es arbeitet stabil, selbst in riesigen Repositories.
Code-Review- und Debugging-Fähigkeiten - Die Fähigkeit, eigene Fehler zu finden und zu korrigieren, wurde verbessert.

Anthropic gibt an, dass sie „Claude mit Claude entwickeln" und dass ihre internen Ingenieure täglich Claude Code für die Entwicklung nutzen. Ein Modell, das von den Entwicklern selbst intensiv genutzt und verfeinert wurde, ist sehr überzeugend.

2. 1 Million Token Kontextfenster (Beta)

Dies ist das erste Mal für ein Modell der Opus-Klasse und hat eine enorme Wirkung.

Das Kontextfenster von Opus 4.5 lag bei 200K Token. Dieses wurde nun schlagartig auf 1 Million Token (Beta) erweitert.

Das Problem der sogenannten „Kontext-Fäulnis" (context rot), bei dem die Leistung des Modells mit zunehmender Gesprächsdauer abnimmt, wurde ebenfalls erheblich verbessert. Schaut man sich die konkreten Zahlen an, so erreicht Opus 4.6 im MRCR v2 (8-needle 1M Variante), einem Benchmark für lange Kontexte, 76 %, während Sonnet 4.5 bei 18,5 % liegt. Das ist eine Verbesserung in einer ganz anderen Dimension.

Dieser Unterschied dürfte sich besonders in Anwendungsfällen bemerkbar machen, in denen eine gesamte große Codebasis auf einmal eingelesen oder riesige Logs analysiert werden müssen.

3. 128K Token Output

Die Anzahl der Output-Token unterstützt nun bis zu 128K Token. Dadurch können die Generierung großer Dateien oder die Ausgabe langer Codeabschnitte in einem Durchgang abgeschlossen werden, ohne sie auf mehrere Anfragen aufteilen zu müssen.

Das mag unscheinbar klingen, ist aber in Szenarien, in denen das Modell als Agent agiert, ein entscheidender Punkt, damit der Prozess nicht mittendrin abbricht.

4. Adaptive Thinking (Adaptives Denken)

Bisher musste man bei Claude das „Extended Thinking" (erweitertes Denken) explizit ein- oder ausschalten.

Mit Opus 4.6 wurde „Adaptive Thinking" eingeführt. Das Modell entscheidet nun selbst: „Hier sollte ich tiefer nachdenken", und nutzt das erweiterte Denken je nach Bedarf.

Das bedeutet, dass es auf einfache Fragen schnell antwortet und bei komplexen Problemen gründlich nachdenkt - also ein menschlicheres Verhalten an den Tag legt.

5. Effort-Kontrolle

Als neue Funktion, die in Kombination mit Adaptive Thinking genutzt werden kann, wurden vier Stufen für den „Effort" (Aufwand) eingeführt:

low - Für leichte Aufgaben, schnelle Antwort.
medium - Ausgewogener Modus.
high (Standard) - Nutzt erweitertes Denken bei Bedarf.
max - Schöpft die maximale Reasoning-Leistung aus.

Ergänzend sei erwähnt, dass der API-Parameter effort auch in Opus 4.5 verfügbar ist (allerdings ist max exklusiv für Opus 4.6; Opus 4.5 bietet nur low/medium/high).

Die offizielle Empfehlung lautet: „Da Opus 4.6 dazu neigt, bei schwierigen Problemen tiefer nachzudenken, empfiehlt es sich, bei einfachen Aufgaben auf ‚medium' herunterzustufen, falls das ‚Overthinking' stört."

Auch aus Sicht des Kostenmanagements ist es erfreulich, den Effort je nach Aufgabe anpassen zu können.

Wer Claude Code nutzt, kann dies am schnellsten ausprobieren: Wenn Opus mit dem Befehl /model ausgewählt ist, kann das Level für den angezeigten Effort-Punkt mit den Pfeiltasten (links/rechts) angepasst werden (high ist Standard).

Bei der API-Nutzung kann dies über den Parameter /effort gesteuert werden.

6. Context Compaction (Kontext-Komprimierung, Beta)

Bei langwierigen Agenten-Aufgaben stieß man unweigerlich an die Grenzen des Kontextfensters.

Context Compaction ist ein Mechanismus, der alte Inhalte zusammenfasst oder ersetzt, wenn der Kontext sein Limit erreicht, um die Fortsetzung langer Aufgaben zu erleichtern.

In Claude Code wurde das Kontextmanagement bereits sehr gut gehandhabt: Wenn das Limit näher rückt, wird automatisch komprimiert, indem zuerst alte Tool-Outputs entfernt und bei Bedarf die Konversation zusammengefasst wird (manuell auch über /compact möglich). Aus Sicht eines Claude-Code-Nutzers bedeutet dies wohl, dass dieser Mechanismus nun auch auf der API-Seite als server-side compaction (Beta) bereitgestellt wurde.

Vergleichstabelle: Opus 4.5 vs. Opus 4.6

Hier sind die für Ingenieure relevanten Spezifikationen im Überblick:

Merkmal	Opus 4.5	Opus 4.6
Kontextfenster	200K Token	200K (Standard) + 1M (Beta)
Max. Output-Token	64K Token	128K Token
Adaptive Thinking	Nein	Ja (nur Opus 4.6)
Effort-Kontrolle	3 Stufen (low/medium/high)	4 Stufen (low/medium/high/max)
Compaction (Kontext-Komprimierung)	Context Editing etc. (client-seitig)	Server-side Compaction (API: Beta)
Preis (Input/Output)	$5/$25 pro 1M Token	$5/$25 pro 1M Token (unverändert)
Long-Context-Leistung (MRCR v2)	-	76 % (Sonnet 4.5 liegt bei 18,5 %)

Quellen (offiziell): Introducing Claude Opus 4.5 / Models overview / Effort / Adaptive thinking / Compaction / What's new in Claude 4.6

Im Originalartikel wird explizit erwähnt: „Pricing remains the same at $5/$25 per million tokens". Dass es trotz dieser Leistungssteigerung keine Preiserhöhung gibt, ist für die Nutzer sehr erfreulich.

Beachten Sie jedoch, dass für Prompts, die 200K Token überschreiten, Premium-Preise ($10/$37.50 pro 1M Token) anfallen.

Die Leistungsfähigkeit in Benchmarks

In Zahlen ausgedrückt wird der Fortschritt noch deutlicher:

Terminal-Bench 2.0 (Agentenbasiertes Coding) - Höchste Punktzahl in der Branche.
Humanity's Last Exam (Komplexer Reasoning-Test) - Spitzenreiter unter allen Frontier-Modellen.
BrowseComp (Informationsbeschaffung) - Branchenführende Suchleistung.
GDPval-AA (Wissensarbeit) - Übertrifft GPT-5.2 um ca. 144 Elo-Punkte und Opus 4.5 um 190 Punkte.
OpenRCA (Ursachenanalyse) - Verbesserte Diagnosefähigkeit bei komplexen Softwarefehlern.
CyberGym (Cybersicherheit) - Hervorragend beim Finden von Schwachstellen in realen Codebasen.

Besonders hervorzuheben für Ingenieure ist die verbesserte Fähigkeit zur Ursachenanalyse (RCA) und im Bereich Cybersicherheit. Das Modell wird damit zu einem noch zuverlässigeren Partner bei der Fehlerbehebung und bei Security-Reviews.

Neue Funktion in Claude Code: Agent Teams

Als Highlight für Entwickler wurde Claude Code die Funktion „Agent Teams" als Research Preview hinzugefügt.

Dies ermöglicht es, mehrere Claude-Code-Instanzen parallel zu starten und sie kooperativ als Team arbeiten zu lassen. Eine Sitzung fungiert als „Team Lead" und koordiniert das Ganze, während andere Mitglieder (Teammates) in jeweils unabhängigen Kontextfenstern arbeiten.

Der Unterschied zu herkömmlichen Subagenten besteht darin, dass Subagenten lediglich Hilfsarbeiter innerhalb der Hauptsitzung sind, die Ergebnisse zurückliefern. Bei Agent Teams hingegen können die Teammitglieder direkt Nachrichten untereinander austauschen. Sie teilen sich eine gemeinsame Aufgabenliste und teilen die Arbeit autonom auf, was eine komplexere Zusammenarbeit ermöglicht.

Aktivierung von Agent Teams

Da Agent Teams derzeit eine experimentelle Funktion ist, ist sie standardmäßig deaktiviert. Um sie zu nutzen, fügen Sie Folgendes in die Konfigurationsdatei von Claude Code ein (~/.claude/settings.json oder projektspezifisch .claude/settings.local.json):

{
  "env": {
    "CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS": "1"
  }
}

Alternativ können Sie die Umgebungsvariable in der Shell setzen: export CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1.

So starten Sie ein Team

Nach der Aktivierung können Sie Claude einfach in natürlicher Sprache mitteilen, wie das Team zusammengestellt sein soll und was die Aufgabe ist. Das Team wird dann automatisch gebildet. Zum Beispiel so:

Create an agent team to review PR #142. Spawn three reviewers:
- One focused on security implications
- One checking performance impact
- One validating test coverage
Have them each review and report findings.

Auf Deutsch würde die Anweisung etwa so lauten:

Erstelle ein Agenten-Team, um PR #142 zu reviewen. Erzeuge drei Reviewer:
- Der erste konzentriert sich auf Sicherheitsaspekte.
- Der zweite prüft die Auswirkungen auf die Performance.
- Der dritte validiert die Testabdeckung.
Lass jeden von ihnen ein Review durchführen und die Ergebnisse berichten.

Damit generiert Claude als Lead drei Reviewer, weist ihnen Rollen zu und führt die Review-Ergebnisse zusammen.

Dies eignet sich auch gut für explorative Aufgaben. In der offiziellen Dokumentation wird beispielsweise gezeigt, wie man das Design eines CLI-Tools aus drei Perspektiven (UX, Architektur, Devil's Advocate) untersuchen lässt.

Wahl des Anzeigemodus

Für Agent Teams gibt mit zwei Anzeigemodi:

In-process Modus - Alle Teammitglieder laufen innerhalb des Hauptterminals. Mit Shift+Up/Down kann man zwischen den Mitgliedern wechseln und direkt Nachrichten senden. Kein zusätzliches Setup erforderlich.
Split panes Modus - Unter Verwendung von tmux oder iTerm2 wird jedes Teammitglied in einem eigenen Pane angezeigt. Man kann die Ausgaben aller Mitglieder gleichzeitig sehen und durch Klicken direkt eingreifen.

Der Standardwert ist "auto". Wenn Sie innerhalb einer tmux-Sitzung arbeiten, wird Split panes genutzt, ansonsten In-process. Dies kann in der settings.json explizit festgelegt werden:

{
  "teammateMode": "tmux"
}

Es ist auch möglich, dies beim Start per Flag anzugeben: claude --teammate-mode in-process.

Steuerung des Teams

Die Steuerung des Teams erfolgt ebenfalls in natürlicher Sprache:

Aufgabenzuweisung - Der Lead verwaltet eine gemeinsame Aufgabenliste, und die Mitglieder übernehmen Aufgaben autonom. Abhängigkeiten werden automatisch berücksichtigt, sodass man sich nicht um die Reihenfolge kümmern muss.
Delegate-Modus - Mit Shift+Tab wechselt man in einen Modus, in dem sich der Lead rein auf die Orchestrierung konzentriert, ohne selbst Code zu schreiben.
Direktes Eingreifen - Im In-process Modus wählen Sie Mitglieder mit Shift+Up/Down aus, im Split panes Modus klicken Sie auf das Pane, um einem einzelnen Mitglied zusätzliche Anweisungen zu geben oder Fragen zu stellen.
Plan-Genehmigung - Man kann anweisen: „Lass mich den Plan vor der Implementierung prüfen". Dann erstellen die Mitglieder Pläne im Read-only-Modus und warten auf die Freigabe durch den Lead, bevor sie mit der Implementierung beginnen.

Geeignete Anwendungsfälle

Agent Teams spielen ihre Stärken besonders in folgenden Fällen aus:

Recherche & Review - PR-Reviews parallel aus verschiedenen Blickwinkeln (Sicherheit, Performance, Testabdeckung) durchführen.
Untersuchung konkurrierender Hypothesen - Die Ursache eines Bugs anhand mehrerer Hypothesen gleichzeitig prüfen und die Mitglieder darüber diskutieren lassen.
Parallele Implementierung neuer Funktionen - Frontend, Backend und Tests werden von verschiedenen Mitgliedern übernommen.
Layer-übergreifende Änderungen - Änderungen, die mehrere Layer betreffen, werden auf die jeweiligen Zuständigen aufgeteilt.

Umgekehrt sind für rein sequentielle Aufgaben, das Bearbeiten derselben Datei oder Aufgaben mit vielen Abhängigkeiten eine einzelne Sitzung oder herkömmliche Subagenten effektiver. Da jedes Teammitglied eine eigene Claude-Code-Instanz ist, sollte man den höheren Token-Verbrauch im Hinterkopf behalten.

Hinweise und Einschränkungen

Da es sich um eine experimentelle Funktion handelt, gibt es einige Einschränkungen:

Beim Fortsetzen einer Sitzung werden Mitglieder im In-process Modus nicht wiederhergestellt (neue Mitglieder müssen erzeugt werden).
Nur ein Team pro Sitzung. Verschachtelte Teams (Mitglieder erstellen weitere Teams) sind nicht möglich.
Wenn zwei Mitglieder dieselbe Datei bearbeiten, kann es zu Überschreibungen kommen. Eine klare Aufteilung der Zuständigkeiten ist wichtig.

Dennoch ist die Entwicklungserfahrung, bei der ein Mensch den Lead beaufsichtigt, während die KI kooperativ im Team arbeitet, ziemlich zukunftsweisend. Es empfiehlt sich, zunächst mit leseintensiven Aufgaben wie Code-Reviews oder Recherchen zu beginnen.

Über die Sicherheit

Mit steigender Leistungsfähigkeit rückt auch die Sicherheit in den Fokus, und Anthropic hat hierauf großen Wert gelegt.

Opus 4.6 weist eine geringe Rate an „misaligned behavior" auf (wie Täuschung, Sycophancy oder Unterstützung bei Missbrauch) und gewährleistet ein Sicherheitsniveau, das mindestens dem des Vorgängers Opus 4.5 entspricht. Zudem ist die Rate an „Over-refusal" (übermäßige Ablehnung berechtigter Anfragen) die niedrigste unter den aktuellen Claude-Modellen.

Da die Cybersicherheits-Fähigkeiten verbessert wurden, wurden sechs neue Proben (Erkennungsmethoden) zur Missbrauchsprävention hinzugefügt. Die bewusste Balance zwischen Leistungsfähigkeit und Sicherheit ist sehr positiv zu bewerten.

Bewertungen von Partnerunternehmen

In der offiziellen Ankündigung wurden Kommentare von Early-Access-Partnern veröffentlicht. Hier sind einige, die für Ingenieure besonders interessant sind:

Claude Opus 4.6 is the new frontier on long-running tasks from our internal benchmarks and testing. It's also been highly effective at reviewing code. -- Michael Truell, Co-founder & CEO, Cursor

Dass der CEO von Cursor von einer „neuen Grenze bei langwierigen Aufgaben" und einer „hohen Effektivität bei Code-Reviews" spricht, ist eine erfreuliche Nachricht für alle Entwickler, die Cursor täglich nutzen.

Across 40 cybersecurity investigations, Claude Opus 4.6 produced the best results 38 of 40 times in a blind ranking against Claude 4.5 models. Each model ran end to end on the same agentic harness with up to 9 subagents and 100+ tool calls. -- Stian Kirkeberg, Head of AI & ML, NBIM

Ein Sieg in 38 von 40 Blindtests ist beeindruckend. Dass der Test mit bis zu 9 Subagenten und über 100 Tool-Aufrufen durchgeführt wurde, macht die Bewertung praxisnah und glaubwürdig.

Claude Opus 4.6 autonomously closed 13 issues and assigned 12 issues to the right team members in a single day, managing a ~50-person organization across 6 repositories. -- Yusuke Kaji, General Manager, AI, Rakuten

Auch der Kommentar von Rakuten ist beeindruckend. Dass 13 Issues an einem Tag autonom geschlossen und 12 weitere den richtigen Teammitgliedern zugewiesen wurden, lässt das Potenzial von KI im Projektmanagement erahnen.

Was mich persönlich interessiert

Hier noch ein paar persönliche Gedanken.

Am meisten interessieren mich an der Entwicklung von Opus 4.6 die „verbesserte Planung" und die „Ausdauer bei langen Aufgaben".

Bisher kam es bei Claude Code manchmal vor, dass bei komplexeren Aufgaben mittendrin die Orientierung verloren ging oder bereits Erledigtes vergessen wurde (obwohl dies bereits bei Opus 4.5 deutlich besser wurde). Wie stark sich die „Konzentration bei langen Aufgaben" und die verbesserte Long-Context-Leistung (die Maßnahmen gegen context rot) im tatsächlichen Workflow auswirken, möchte ich durch intensive Nutzung herausfinden.

Zudem halte ich die Einführung der Effort-Kontrolle für einen großen Schritt in Richtung Kostenoptimierung. Durch die Wahl des passenden Efforts je nach Aufgabentyp lassen sich Kosten senken, ohne die Qualität zu beeinträchtigen.

Zusammenfassung

Claude Opus 4.6 ist ein Update, auf das viele Ingenieure gewartet haben.

Erhebliche Steigerung der Coding- und Debugging-Fähigkeiten.
1 Million Token Kontextfenster.
Flexible Nutzung durch Adaptive Thinking und Effort-Kontrolle.
Stabilität bei langen Aufgaben durch Context Compaction.
Paralleles Arbeiten durch Agent Teams (Claude Code).
Leistungssteigerung bei gleichbleibendem Preis.

Vom „KI Code schreiben lassen" hin zum „Entwickeln im Team mit KI". Opus 4.6 scheint ein Modell zu sein, das diesen Trend weiter beschleunigt.

Wer es noch nicht ausprobiert hat, kann dies sofort über claude.ai, die API oder Cursor tun. Erleben Sie die Leistungsfähigkeit selbst - Sie werden sicher den Unterschied bemerken.

Referenz-Links

Diesen Artikel teilen