Claude Sonnet 4.6がリリース!エンジニア目線で見るSonnet 4.5からの進化と「コスパ最強」の実力
目次
こんにちは。2026年2月17日、Anthropic から Claude Sonnet の最新モデル「Claude Sonnet 4.6」がリリースされました。
先日、Opus 4.6 のリリース記事を書いたばかりですが、今度は Sonnet ラインのアップデートです。正直なところ、Opus 4.6 の記事を書いた時点で「Sonnet も来るだろうな」と予感はしていましたが、さっそく来ましたね。
この記事では、公式のアナウンスとシステムカードをベースに、エンジニア目線で Sonnet 4.6 の特徴と Sonnet 4.5 からの変化を整理してみます。
Claude Sonnet ってどんなモデル?
Claude には Haiku・Sonnet・Opus という3つのモデルラインナップがあります。Sonnet はその中間に位置する「バランス型モデル」で、性能とコストの両立を重視しているのが特徴です。
Sonnet 4.5 も十分に実用的なモデルでしたが、Opus クラスのモデルと比べると見劣りする面はありました。今回の Sonnet 4.6 は、そのギャップを大きく縮めてきています。ベンチマークでは、Opus 4.5 を超えているケースすらあります。
Sonnet 4.6 の主な進化ポイント
1. コーディング能力が大幅に向上
エンジニアとして一番気になるところから見ていきましょう。
先に結論を言ってしまうと、先日リリースされたばかりの Opus 4.6 と比べれば、さすがに最上位モデルには及びません。ベンチマーク上も Opus 4.6 が一段上にいるのは後ほどの比較表で確認できます。ただ、注目すべきは 「前世代のフラッグシップだった Opus 4.5 を超えている」 という点です。
公式によると、先行利用した開発者が Claude Code で使い比べたところ、Sonnet 4.5 より Sonnet 4.6 を好む割合が約70%。そして、2025年11月時点では最強モデルだった Opus 4.5 と比べても、59% の確率で Sonnet 4.6 のほうが好まれたとのこと。つまり「ひとつ前の世代なら、最上位の Opus よりも Sonnet 4.6 のほうがいい」と感じる開発者が過半数を超えたわけです。
Sonnet の価格帯($3/$15)で前世代 Opus の性能を超えてくるというのは、なかなかインパクトのある話ですね。
具体的にどんな点が改善されたのか、ユーザーからのフィードバックをまとめると以下のようになっています。
- コードを修正する前に、まず既存のコンテキストをしっかり読むようになった
- 共通ロジックを重複させず、きちんと共通化するようになった
- オーバーエンジニアリングや「手抜き」が減った
- 指示への追従性が上がった
- 「成功しました」という嘘の報告やハルシネーションが減った
- マルチステップのタスクでの一貫性が向上した
特に「コンテキストをちゃんと読んでから修正する」というのは、日頃 Claude Code や Cursor を使っていて痛感するポイントですね。既存コードの意図を無視して新しいコードを書かれてしまう…という経験がある方には、嬉しい改善ではないでしょうか。
2. ベンチマークで見る「Opus に迫る実力」
具体的な数字を見てみると、Sonnet 4.6 がどこまで Opus クラスに迫っているかがよく分かります。
| ベンチマーク | Sonnet 4.6 | Opus 4.6 | Sonnet 4.5 | 概要 |
|---|---|---|---|---|
| SWE-bench Verified | 79.6% | 80.8% | 77.2% | 実際のソフトウェアバグ修正タスク |
| Terminal-Bench 2.0 | 59.1% | 65.4% | 51.0% | ターミナル操作を含むコーディングタスク |
| OSWorld-Verified | 72.5% | 72.7% | 61.4% | 実環境でのPC操作タスク |
| τ²-bench(Retail) | 91.7% | 91.9% | 86.2% | カスタマーサービス対応 |
| GDPval-AA | 1633 | 1606 | 1276 | 知識労働タスク(Elo レーティング) |
| GPQA Diamond | 89.9% | 91.3% | 83.4% | 大学院レベルの科学問題 |
| ARC-AGI-2 | 58.3% | 68.8% | 13.6% | 新規パターンの推論能力 |
※ARC-AGI-2 は high effort 条件だと Sonnet 4.6 が 60.4% という結果も報告されています(表の 58.3% は max effort の値です)。
この表から読み取れるのは、「得意分野によって Sonnet で十分なケースと、Opus を選ぶべきケースがはっきり分かれる」ということです。具体例で考えてみましょう。
Sonnet 4.6 で十分(または Sonnet のほうが向いている)ケース:
- 日々のバグ修正や機能追加(SWE-bench: 79.6% vs 80.8%) — 差はわずか 1.2 ポイント。「Issue を渡して PR を作ってもらう」程度のタスクなら、コストが安い Sonnet で回すのが合理的です
- ブラウザ操作やフォーム入力の自動化(OSWorld: 72.5% vs 72.7%) — 事実上同スコア。E2E テストの自動化や、社内システムの操作自動化のようなコンピュータ操作タスクは Sonnet で十分です
- ドキュメント作成や提案書のドラフト(GDPval-AA: 1633 vs 1606) — むしろ Sonnet のほうがスコアが高い。実務的なオフィスワークは Sonnet の得意領域です
- カスタマーサポート Bot の構築(τ²-bench: 91.7% vs 91.9%) — ほぼ同等。大量のリクエストを捌くサポート系エージェントは、コスト差が効いてくるので Sonnet 一択でしょう
Opus 4.6 を選ぶべきケース:
- 複雑なターミナル操作を伴うエージェント(Terminal-Bench: 59.1% vs 65.4%) — 6 ポイント以上の差。CI/CD パイプラインの構築やインフラ構成の自動化など、長いコマンドチェーンを正確にこなす必要がある場面では Opus の安定感が欲しいところです
- 未知のパターンに対する高度な推論(ARC-AGI-2: 58.3% vs 68.8%) — 10 ポイント以上の差。前例のないアーキテクチャ設計や、既存の解法が通用しない難問に取り組むなら Opus の推論力が活きます
- 難関分野の専門的な判断(GPQA Diamond: 89.9% vs 91.3%) — 差は小さいですが、医療・法律・科学など「間違えると取り返しがつかない」領域では、少しでも精度が高い Opus を選ぶ安心感があります
もちろん、これはあくまでベンチマークの数字から読み取れる傾向です。実際に使ってみると、プロンプトの書き方やタスクの性質によって印象がガラッと変わることも珍しくありません。「最初にどっちを試すか」の目安くらいに捉えておいて、あとは自分のユースケースで両方試してみるのが一番確実だと思います。
3. 100万トークンのコンテキストウィンドウ(ベータ)
Sonnet 4.6 は 100万トークンのコンテキストウィンドウ(ベータ)に対応しています。なお、1M コンテキスト自体は Sonnet 4.5 でもベータ提供されていましたが、4.6 ではロングコンテキスト下での推論品質がさらに改善されている点が実務上の違いです。
コードベース全体や長大な契約書、何十本もの論文を一度のリクエストに含められるだけでなく、そのすべてのコンテキストに対して効果的に推論できる点が重要です。
面白い事例として、公式が紹介している Vending-Bench Arena があります。これは(シミュレーション上の)ビジネスを長期間運営し、AI モデル同士が利益を競い合うベンチマークです。Sonnet 4.6 は、最初の10か月間は設備投資に大きく支出し、終盤で一気に収益性にシフトするという独自の戦略を編み出して、他のモデルを大きく引き離したそうです。
こういった長期的な視野での計画と判断ができるのは、まさにロングコンテキストの恩恵ですね。
4. コンピュータ操作(Computer Use)が大幅進化
Sonnet 4.6 のもう一つの目玉が、コンピュータ操作の進化です。
OSWorld-Verified で 72.5% を記録しているのは先ほど紹介しましたが、2024年10月に最初のコンピュータ操作モデルとして Claude 3.5 Sonnet が登場した時はスコアが 10%台でした。そこから約16か月で 70%台まで到達したというのは、改善速度がすさまじいですね。
実際に先行利用した開発者からは、複雑なスプレッドシートのナビゲーションや、複数ステップの Web フォーム入力などで「人間レベルの操作能力」が見られるという報告が上がっています。複数のブラウザタブを横断して情報を集約するようなタスクもこなせるようになっているとのこと。
同時に、プロンプトインジェクション攻撃への耐性も Sonnet 4.5 から大幅に改善されています。コンピュータ操作はセキュリティリスクも伴うため、この点の改善は実運用上とても重要です。
5. Adaptive Thinking と Effort コントロール
Opus 4.6 で導入された Adaptive Thinking(モデル自身が思考の深さを調整する機能)が、Sonnet 4.6 でもサポートされています。
また、従来の extended thinking(拡張思考)モードにも対応しているので、用途に応じた使い分けが可能です。
公式からのアドバイスとして、「Sonnet 4.6 は extended thinking を OFF にしても強いパフォーマンスを発揮するので、速度と性能のバランスを探るためにいろいろ試してみてほしい」とのこと。
つまり、thinking なしで高速に使う → 難しいタスクは effort を上げる → 最大限の推論が必要なら Opus 4.6 に切り替える、という段階的な使い分けが自然にできるわけです。
6. Context Compaction(コンテキスト圧縮・ベータ)
Opus 4.6 と同様に、コンテキストが上限に近づいた時に古い内容を自動で要約する Context Compaction もベータで利用可能です。
長時間のエージェントタスクでコンテキストが溢れてしまう問題は、開発者にとっては日常茶飯事ですよね。この機能により、セッションの途中で会話をリセットする頻度がかなり減りそうです。
Sonnet 4.5 vs Sonnet 4.6 比較表
エンジニアとして気になるスペックを表にまとめました。
| 項目 | Sonnet 4.5 | Sonnet 4.6 |
|---|---|---|
| コンテキストウィンドウ | 200K(通常)+ 1M(ベータ) | 200K(通常)+ 1M(ベータ) |
| Adaptive Thinking | なし | あり |
| Extended Thinking | あり | あり |
| コンピュータ操作 | 対応(OSWorld 61.4%) | 大幅改善(OSWorld 72.5%) |
| SWE-bench Verified | 77.2% | 79.6% |
| 料金(入力/出力) | $3/$15 per 1M tokens | $3/$15 per 1M tokens(据え置き) |
※出典(公式): Introducing Sonnet 4.6 / Claude Sonnet 4.6 System Card / Models overview
料金が Sonnet 4.5 と変わらず $3/$15 per 1M tokens というのは、この性能向上を考えると驚異的なコストパフォーマンスです。Opus 4.6 の $5/$25 と比べても大幅に安い。
Sonnet 4.6 の立ち位置 — 「選択肢が増えた」ということ
個人的には、今後も Opus 4.6 をメインで使うつもりです。やはり推論の深さやエージェント運用の安定感では Opus に一日の長がありますし、コーディング作業の「ここぞ」という場面で差が出るのも実感しています。
ただ、Sonnet 4.6 の登場で「すべてのタスクに Opus を使う必要があるのか?」という選択肢が生まれたのは大きいと思います。たとえば以下のようなケースでは、Sonnet 4.6 に任せてコストを抑えるのも十分アリでしょう。
- 大量に回すエージェント — 同等に近い性能で入力・出力ともにコスト 40% オフ。数をこなすほど差が効いてきます
- フロントエンド開発 — デザインセンスの良さがパートナー各社から特に評価されている
- ドキュメント理解 — OfficeQA で Opus 4.6 と同等のスコア
- コンピュータ操作 — OSWorld で Opus 4.6 とほぼ同スコア
一方で、大規模なコードベースのリファクタリングや複数エージェントのワークフロー調整など、最深部の推論力が求められるタスクでは引き続き Opus 4.6 に軍配が上がるというのが公式の見解です。僕自身の開発スタイルだと、こういった場面のほうが多いので Opus 中心は変わらないかなと思いますが、適材適所で Sonnet を混ぜることでトータルコストを最適化できるのは嬉しいですね。
プロダクトの更新情報
Sonnet 4.6 のリリースに合わせて、いくつかのプロダクトアップデートも発表されています。
無料プランの拡充
claude.ai と Claude Cowork の無料プランおよび Pro プランで、Sonnet 4.6 がデフォルトモデルになりました。さらに、無料プランでもファイル作成、コネクタ、スキル、Compaction 機能が使えるようになっています。
これは地味に大きな変更で、無料ユーザーでもかなり実用的な開発体験ができるようになったということです。
API のツール群が正式版(GA)に
これまでベータだった以下の API ツールが正式版(GA)になりました。
- Code Execution(コード実行)
- Memory(記憶)
- Programmatic Tool Calling(プログラム的ツール呼び出し)
- Tool Search(ツール検索)
- Tool Use Examples(ツール使用例の提供)
また、Web Search と Fetch ツールが自動でコードを実行して検索結果をフィルタリングする仕組みが追加され、レスポンスの質とトークン効率の両方が改善されています。
Claude in Excel で MCP コネクタ対応
Excel アドインが MCP コネクタに対応し、Excel 内から外部ツール(S&P Global、LSEG、PitchBook など)のデータを直接参照できるようになりました。claude.ai で設定済みの MCP コネクタがそのまま使えるとのことです。
安全性について
Sonnet 4.6 は、Anthropic のこれまでの Claude モデルと同等以上の安全性を確保しているとのことです。
システムカードの中で、安全性の研究者は Sonnet 4.6 について「温かみがあり、正直で、社会的で、時にユーモラスなキャラクター、非常に強い安全性の振る舞い、そしてハイリスクな misalignment の兆候は見られない」と評価しています。
一部のアライメント指標(「嘘をつかないか」「ユーザーに迎合して間違った回答をしないか」「指示を超えて勝手に行動しないか」といった、モデルの振る舞いが人間の意図にどれだけ沿っているかを測る指標)では、これまでの Claude モデルの中で最も良いスコアを記録しているそうです。
また、コンピュータ操作時のプロンプトインジェクション耐性が Sonnet 4.5 から大幅に向上し、Opus 4.6 と同等のレベルに達している点も見逃せません。
各社パートナーの評価
公式アナウンスには多数のパートナー企業からのコメントが掲載されていました。エンジニアとして気になったものをピックアップします。
Claude Sonnet 4.6 delivers frontier-level results on complex app builds and bug-fixing. It's becoming our go-to for the kind of deep codebase work that used to require more expensive models.
「以前はもっと高価なモデルが必要だったディープなコードベース作業で、Sonnet 4.6 が第一候補になりつつある」というコメントが印象的です。
Claude Sonnet 4.6 produced the best iOS code we've tested for Rakuten AI. Better spec compliance, better architecture, and it reached for modern tooling we didn't ask for, all in one shot. The results genuinely surprised us.
楽天 AI からは「テストした中で最高の iOS コードを生成した」「仕様準拠もアーキテクチャも良く、頼んでもいないのにモダンなツールを使ってきた」というコメント。一発で高品質なコードを出せるのは、開発ワークフローの効率化に直結しますね。
Claude Sonnet 4.6 has perfect design taste when building frontend pages and data reports, and it requires far less hand-holding to get there than anything we've tested before.
「フロントエンドページやデータレポートの構築で完璧なデザインセンスを持っている」という評価も。UI の生成品質は、実際に多くのユーザーから独立して報告されている改善点のようです。
まとめ
Claude Sonnet 4.6 は、「Sonnet はコスパ重視のサブモデル」という認識を根本から覆すアップデートでした。
- コーディング能力が Opus 4.5 を超え、Opus 4.6 に迫るレベルに
- OSWorld やドキュメント理解では Opus 4.6 と事実上同等
- 100万トークンのコンテキストウィンドウ(ベータ)
- Adaptive Thinking と Effort コントロールに対応
- 無料プランでもデフォルトモデルとして使える
- これだけの進化で 料金は据え置き
「高くて強い Opus」「安くてそこそこの Sonnet」という構図は、もう過去のものかもしれません。Sonnet 4.6 は「安くて、かなり強い」モデルです。
API 経由なら claude-sonnet-4-6 で利用でき、claude.ai では無料プランから試せます。Opus 4.6 との違いを自分の手で確かめてみるのも面白いと思いますよ。