Claude Opus 4.6がリリース!エンジニア目線で見るOpus 4.5からの進化ポイント
目次
こんにちは。2026年2月5日(日本時間の2月6日)、Anthropic から Claude の最新モデル「Claude Opus 4.6」がリリースされました。
普段から Claude を開発のお供にしている身としては、新しいモデルのリリースはいつだってワクワクします。今回のアップデート、結論から言うと「エンジニアにとってかなり嬉しい進化」が詰まっています。
この記事では、公式のアナウンスをベースに、エンジニア目線で Opus 4.6 の特徴と Opus 4.5 からの変化を整理してみたいと思います。
そもそも Claude Opus って?
ご存知の方も多いと思いますが、Claude には Haiku・Sonnet・Opus という3つのモデルラインナップがあります。Opus はその中で最も高性能な「フラッグシップモデル(最上位・看板モデル)」という位置づけです。
前モデルの Opus 4.5 も十分に優秀でしたが、今回の 4.6 はそこからさらに大きくステップアップしています。
Opus 4.6の主な進化ポイント
1. コーディング能力の大幅強化
エンジニアにとって一番気になるのはやっぱりここですよね。
Opus 4.6 は、エージェント型コーディングベンチマーク「Terminal-Bench 2.0」で最高スコアを記録しています。これは実際のターミナル操作を含む、より実践的なコーディングタスクを評価するベンチマークです。
具体的には以下の点が改善されています。
- 計画性の向上 - タスクに取りかかる前に、より丁寧に計画を立てるようになった
- 長時間のエージェントタスクへの持続力 - 長いセッションでも集中力を切らさない
- 大規模コードベースでの信頼性 - 巨大なリポジトリでも安定して動作する
- コードレビュー・デバッグ能力 - 自分自身のミスを見つけて修正する力が向上
Anthropic 自身も「Claude で Claude を作っている」そうで、社内のエンジニアが毎日 Claude Code を使って開発しているとのこと。自分たちが使い込んで磨いたモデルというのは、説得力がありますね。
2. 100万トークンのコンテキストウィンドウ(ベータ)
これは Opus クラスのモデルとしては初めてのことで、かなりインパクトがあります。
Opus 4.5 のコンテキストウィンドウがどれくらいだったかというと、200K トークンでした。それが一気に 100万トークン(ベータ)まで拡大しています。
「コンテキスト腐敗(context rot)」と呼ばれる、会話が長くなるにつれてモデルの性能が落ちていく問題も大幅に改善されています。具体的な数字を見ると、MRCR v2(8-needle 1M バリアント)という長文コンテキストのベンチマークで、Sonnet 4.5 が 18.5% のところ Opus 4.6 は 76% をマークしています。これはもう別次元の改善です。
大規模なコードベース全体を一度に読み込ませたり、膨大なログを解析させたりするようなユースケースで、この違いが効いてきそうですね。
3. 128Kトークンの出力
出力トークン数も最大 128K トークンに対応しています。これにより、大きなファイルの生成や長いコードの出力を、複数のリクエストに分割することなく一度で完了できるようになります。
地味に思えるかもしれませんが、エージェント的に使う場面では「途中で切れない」というのはかなり重要なポイントです。
4. Adaptive Thinking(適応的思考)
これまでの Claude では、extended thinking(拡張思考)の ON/OFF を二者択一で設定する必要がありました。
Opus 4.6 では「Adaptive Thinking」が導入され、モデル自身が「ここは深く考えたほうがいいな」と判断して、必要に応じて拡張思考を使い分けてくれます。
つまり、簡単な質問にはサクッと答え、複雑な問題にはじっくり考えるという、より人間的な振る舞いをするようになったわけです。
5. Effort コントロール
Adaptive Thinking と組み合わせて使える新機能として、4段階の effort レベルが導入されました。
- low - 軽いタスク向け、高速応答
- medium - バランス型
- high(デフォルト) - 必要に応じて拡張思考を使用
- max - 最大限の推論力を発揮
補足すると、API の effort パラメータ自体は Opus 4.5 でも使えます(ただし max は Opus 4.6 のみで、Opus 4.5 では low/medium/high の3段階です)。
公式のアドバイスとして「Opus 4.6 は難しい問題に対してより深く考える傾向があるので、シンプルなタスクでオーバーシンキングが気になる場合は medium に下げるのがおすすめ」とのことです。
コスト管理の面からも、タスクに応じて effort を切り替えられるのは嬉しいですね。
Claude Code で使っている方は、まずここから触るのが早いと思います。/model コマンドで Opus を選択した状態で、表示される effort の項目に対して左右キーでレベルを調整できます(high がデフォルト)。
API 利用時は /effort パラメータで制御できます。
6. Context Compaction(コンテキスト圧縮・ベータ)
長時間のエージェントタスクをしていると、どうしてもコンテキストウィンドウの上限にぶつかる問題がありました。
Context Compaction は、コンテキストが限界に近づいたときに、古い内容を要約・置換して長いタスクを続けやすくする仕組みです。
Claude Code だと元々コンテキスト管理はかなり面倒を見てくれていて、上限が近づくと「古い tool output を先に片付ける → 必要なら会話を要約する」という流れで自動的に compact してくれます(手動なら /compact もあります)。なので Claude Code ユーザー目線だと、その仕組みが API 側でも server-side compaction として提供された(ベータ)ということではないかと思います。
Opus 4.5 vs Opus 4.6 比較表
エンジニアとして気になるスペックを表にまとめてみました。
| 項目 | Opus 4.5 | Opus 4.6 |
|---|---|---|
| コンテキストウィンドウ | 200K トークン | 200K(通常)+ 1M(ベータ) |
| 最大出力トークン | 64K トークン | 128K トークン |
| Adaptive Thinking | なし | あり(Opus 4.6 のみ) |
| Effort コントロール | 3段階(low/medium/high) | 4段階(low/medium/high/max) |
| Compaction(コンテキスト圧縮) | context editing 等(client-side) | server-side compaction(API: ベータ) |
| 料金(入力/出力) | $5/$25 per 1M tokens | $5/$25 per 1M tokens(据え置き) |
| 長文コンテキスト性能(MRCR v2) | - | 76%(Sonnet 4.5 は 18.5%) |
※出典(公式): Introducing Claude Opus 4.5 / Models overview / Effort / Adaptive thinking / Compaction / What’s new in Claude 4.6
元記事では「Pricing remains the same at $5/$25 per million tokens」と明記されています。これだけの性能向上がありながら値上げなしというのは、ユーザーとしてはありがたいですね。
ただし、200K トークンを超えるプロンプトにはプレミアム料金($10/$37.50 per 1M tokens)が適用される点は覚えておきましょう。
ベンチマークで見る実力
数字で見ると、その進化がより明確になります。
- Terminal-Bench 2.0(エージェント型コーディング) - 業界最高スコア
- Humanity's Last Exam(複合的推論テスト) - 全フロンティアモデル中トップ
- BrowseComp(情報検索能力) - 業界トップの検索性能
- GDPval-AA(知識労働タスク) - GPT-5.2 を約144 Elo ポイント上回り、Opus 4.5 を 190 ポイント上回る
- OpenRCA(根本原因分析) - 複雑なソフトウェア障害の診断能力が向上
- CyberGym(サイバーセキュリティ) - 実際のコードベースの脆弱性発見に優れる
特にエンジニアにとって注目したいのは、根本原因分析(RCA)やサイバーセキュリティの能力が向上している点です。障害対応やセキュリティレビューの場面で、より頼れるパートナーになりそうですね。
Claude Code の新機能:Agent Teams
開発者向けの目玉機能として、Claude Code に「Agent Teams」がリサーチプレビューとして追加されました。
これは、複数の Claude Code インスタンスを並行して起動し、チームとして協調的に作業させる機能です。1つのセッションが「チームリード」として全体を統率し、他のメンバー(Teammate)がそれぞれ独立したコンテキストウィンドウで作業します。
従来の subagent(サブエージェント)との違いが気になるところですが、subagent が「メインのセッション内で動く補助ワーカー」で結果をメインに返すだけなのに対し、Agent Teams はチームメンバー同士が直接メッセージをやりとりできるのが大きな特徴です。共有のタスクリストを使って作業を自律的に分担し合うので、より複雑なコラボレーションが可能になります。
Agent Teams の有効化
Agent Teams は現時点では実験的機能のため、デフォルトでは無効です。使うには Claude Code の設定ファイル(~/.claude/settings.json やプロジェクト内の .claude/settings.local.json など)に以下を追加します。
{
"env": {
"CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS": "1"
}
}
シェルの環境変数として export CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1 をセットしても OK です。
チームの起動方法
有効化したら、Claude に自然言語でチーム構成と作業内容を伝えるだけで、自動的にチームが編成されます。たとえば、こんな感じです。
Create an agent team to review PR #142. Spawn three reviewers:
- One focused on security implications
- One checking performance impact
- One validating test coverage
Have them each review and report findings.
日本語で指示する場合はこんな感じになります。
PR #142 をレビューするエージェントチームを作って。レビュアーを3人生成して:
- 1人目はセキュリティの観点
- 2人目はパフォーマンスへの影響
- 3人目はテストカバレッジの検証
それぞれレビューして結果を報告してもらって。
これだけで、Claude がリードとして3人のレビュアーを生成し、それぞれに役割を割り当て、レビュー結果を統合してくれます。
もう少し探索的なタスクにも向いています。たとえば「CLI ツールの設計を UX 担当・アーキテクト担当・Devil's Advocate の3視点で検討して」といった使い方も公式ドキュメントで紹介されています。
表示モードの選択
Agent Teams には2つの表示モードがあります。
- In-process モード - すべてのチームメイトがメインのターミナル内で動作し、
Shift+Up/Downでメンバーを切り替えて直接メッセージを送れます。追加のセットアップは不要です - Split panes モード - tmux や iTerm2 を使って、各チームメイトが独立したペインに表示されます。全員の出力を同時に確認でき、クリックで直接介入できます
デフォルトは "auto" で、tmux セッション内で実行していれば Split panes、それ以外では In-process になります。明示的に指定したい場合は settings.json で設定します。
{
"teammateMode": "tmux"
}
起動時に claude --teammate-mode in-process のようにフラグで指定することも可能です。
チームの制御
チーム運営に関する操作も自然言語で行えます。
- タスクの割り当て - リードが共有タスクリストを管理し、メンバーが自律的にタスクを取得して作業します。依存関係のあるタスクは自動的にブロックされるので、順序を気にする必要はありません
- Delegate モード -
Shift+Tabで切り替えると、リードがコードに手を出さずオーケストレーションに専念するモードになります - 直接介入 - In-process モードなら
Shift+Up/Downでメンバーを選択、Split panes モードならペインをクリックして、個別のメンバーに追加の指示や質問ができます - プラン承認 - 「実装前にプランを確認させて」と指示すれば、メンバーが read-only のプランモードで計画を立て、リードの承認を得てから実装に移る流れも作れます
向いているユースケース
Agent Teams が特に力を発揮するのは、以下のようなケースです。
- リサーチ・レビュー - PR レビューをセキュリティ・パフォーマンス・テストカバレッジなど観点別に並行実施
- 競合仮説での調査 - バグの原因を複数の仮説で同時に検証し、メンバー同士が議論して結論を出す
- 新機能の並行実装 - フロントエンド・バックエンド・テストをそれぞれ別のメンバーが担当
- クロスレイヤーの変更 - 複数レイヤーにまたがる変更を各担当に分割して進行
逆に、順次処理が必要なタスクや同じファイルを編集する作業、依存関係の多いタスクは従来の単一セッションや subagent のほうが効果的です。Agent Teams は各メンバーが独立した Claude Code インスタンスなので、トークン消費も多くなる点は意識しておきましょう。
注意点と制限事項
まだ実験的機能ということもあり、いくつかの制限があります。
- セッションの再開時に In-process モードのメンバーは復元されない(新しいメンバーを生成し直す必要あり)
- チームは1セッションにつき1つまで。ネストしたチーム(メンバーがさらにチームを作る)は不可
- 2人のメンバーが同じファイルを編集すると上書きが発生するため、ファイルの担当を明確に分けることが重要
とはいえ、人間がリードを監督しつつ、AI がチームで協調的に作業するという開発体験は、なかなか未来的ですね。まずはコードレビューやリサーチのような読み取り中心のタスクから試してみるのが良さそうです。
安全性について
能力が上がると気になるのが安全性ですが、Anthropic はこの点もしっかりケアしています。
Opus 4.6 は、欺瞞性や追従性(sycophancy)、誤用への協力といった「misaligned behavior」の発生率が低く、前モデルの Opus 4.5 と同等以上の安全性を確保しているとのこと。さらに、正当なクエリに対して過剰に拒否してしまう「over-refusal」の率は、最近の Claude モデルの中で最も低いそうです。
サイバーセキュリティ能力が向上した分、悪用防止のための新しいプローブ(検出手法)も6つ追加されています。能力と安全性のバランスを意識しているのは好感が持てますね。
各社パートナーの評価
公式アナウンスには各社の Early Access パートナーからのコメントが掲載されていましたが、エンジニアとして特に気になったものをいくつかピックアップしてみます。
Claude Opus 4.6 is the new frontier on long-running tasks from our internal benchmarks and testing. It's also been highly effective at reviewing code. — Michael Truell, Co-founder & CEO, Cursor
Cursor の CEO が「長時間タスクの新たなフロンティア」「コードレビューにも非常に効果的」と言っているのは、まさに日頃 Cursor を使っている開発者には嬉しいコメントです。
Across 40 cybersecurity investigations, Claude Opus 4.6 produced the best results 38 of 40 times in a blind ranking against Claude 4.5 models. Each model ran end to end on the same agentic harness with up to 9 subagents and 100+ tool calls. — Stian Kirkeberg, Head of AI & ML, NBIM
40件中38件でブラインドテストに勝利、というのは圧倒的ですね。9つのサブエージェントと100以上のツール呼び出しを伴うテストというのも、実運用に近い評価で信頼性があります。
Claude Opus 4.6 autonomously closed 13 issues and assigned 12 issues to the right team members in a single day, managing a ~50-person organization across 6 repositories. — Yusuke Kaji, General Manager, AI, Rakuten
楽天からのコメントも印象的です。1日で13件の Issue を自律的にクローズし、12件を適切なチームメンバーにアサインしたという話は、AI によるプロジェクトマネジメントの可能性を感じさせます。
個人的に気になっていること
ここからは僕個人の感想を少し。
Opus 4.6 の進化で最も気になっているのは「計画性の向上」と「長時間タスクでの持続力」です。
これまで Claude Code でちょっと複雑なタスクを任せると、途中で方向性がブレたり、前にやったことを忘れてしまったりすることがありました(Opus 4.5 では気にならないくらいに向上しましたが)。今回の「長いタスクでも集中力が続く」という点や、長文コンテキスト性能の改善(いわゆる context rot 対策)が、実際の開発フローでどれくらい効くのかは、使い込みながら見極めたいところです。
また、effort コントロールの導入は、コスト最適化の観点からも大きいと思います。タスクの種類に応じて effort を使い分けることで、品質を維持しつつコストを抑えられそうです。
まとめ
Claude Opus 4.6 は、エンジニアにとって「待ってました」と言いたくなるようなアップデートでした。
- コーディング・デバッグ能力の大幅向上
- 100万トークンのコンテキストウィンドウ
- Adaptive Thinking と effort コントロールによる柔軟な使い分け
- Context Compaction による長時間タスクの安定性
- Agent Teams による並行作業(Claude Code)
- 性能向上しつつ価格は据え置き
「AI にコードを書かせる」から「AI とチームで開発する」へ。Opus 4.6 は、その流れをさらに加速させるモデルになりそうです。
まだ触っていない方は、claude.ai や API、Cursor などからすぐに試せますので、ぜひ一度その実力を体感してみてください。きっと「あ、これは違うな」と感じるはずですよ。