ホーム
/
Claude Code
/
Claude Opus 4.8 がリリース。長く任せられる自走力と、より誠実な振る舞いへ

Claude Code

Claude Opus 4.8 がリリース。長く任せられる自走力と、より誠実な振る舞いへ

2026-05-30

18分で読了

更新: 2026-05-30

正直なところ、ここ最近の AI コーディング界隈では OpenAI の Codex の勢いがすさまじく、流れははっきり Codex に傾いていました。これまで「コーディングなら Claude Code が一番」と言い切っていた人たちまでもが、次々と Codex を主軸に乗り換えていったほどです。SNS では「もう Claude はいらない」とまで言う人もいました。でもまあ、僕は Anthropic の方針というか哲学的なものが好きですし、開発体験が Claude Code の方が圧倒的に好きというのもあったので、気にせず Claude Code 一択でしたけどね。

そんなタイミングだったので、今回の Opus 4.8 は個人的に待ちに待ったアップグレードでした。相変わらずの進化スピードに驚かされつつ、ここで一段ギアを上げてきたか、という頼もしさを感じています。

今回のアナウンスを読んで僕がまず感じたのは、「数字のインパクト」よりも「仕事の任せやすさ」に軸足が移ってきたな、ということです。公式の紹介文も、ベンチマークの高さよりも先に「より鋭い判断力（sharper judgment）」「自分の進捗についての正直さ（more honesty about its own progress）」「これまでより長く自走できること（the ability to work independently for longer）」という3点を挙げています。

この記事では公式アナウンスをベースに、Opus 4.8 の特徴と、それが日々の仕事にどう効いてくるのかを整理していきます。価格は Opus 4.7 から据え置きで、API では claude-opus-4-8 というモデル ID で利用できます。

Opus 4.8 の3つの軸

Anthropic が掲げている進化の軸は、次の3つです。

より鋭い判断力 - 難しい場面での意思決定が改善している
自分の進捗についての正直さ - できたこと・できていないことを正確に申告する
より長く自走できること - 細かく口を挟まなくても、長いセッションを通して作業をやり切る

順番にベンチマークと実用面の両方から見ていきます。

ベンチマークで見る性能

まずは公式が公開した主要ベンチマークの比較です。Opus 4.7、そして他社の GPT-5.5 と Gemini 3.1 Pro を並べた数字が出ています。

（出典：Introducing Claude Opus 4.8 \ Anthropic）

ざっと眺めると、コーディング（SWE-Bench Pro で 69.2%）、推論（Humanity's Last Exam）、コンピュータ操作、知識労働（GDPval-AA）、金融分析と、多くの領域で Opus 4.7 を一段引き上げてきています。

公平を期すために触れておくと、Terminal-Bench 2.1（ターミナル上でのエージェント的コーディング）では GPT-5.5 が 78.2% で先行していて、ここは Opus 4.8 の 74.6% を上回っています。すべての項目で一番というわけではありません。とはいえ、SWE-Bench Pro での 64.3% → 69.2% という伸びや、知識労働を測る GDPval-AA で 1753 → 1890 と頭ひとつ抜けている点を見ると、実務に近いタスクでの底上げがしっかり効いている印象です。

ベンチマークはあくまで一面ではありますが、「前世代から順当に、しかも実務寄りの軸で伸びている」というのが素直な読み取りだと思います。

自走力 - 長く任せられるようになった

個人的に今回いちばん注目しているのが、この「自走力」の向上です。

公式は Claude Code での挙動について、「経験豊富なエンジニアのように、絶え間ない確認を必要とせず判断を下す（makes calls like an experienced engineer without needing constant check-ins）」と表現しています。長時間にわたるセッションでも脱線せず、リポジトリの中で作業を最後まで追い切るので、ひとつの機能追加やバグ修正のまとめ作業をまるごと預けて、自分は次の作業に移れる、という使い方ができます。

ここは少し噛み砕いておきましょう。これまでの AI コーディングは、どうしても「指示する → 出力を確認する → 軌道修正する」の往復が必要でした。長いタスクほどこの確認コストが積み上がり、結局つきっきりになりがちだったんですね。Opus 4.8 はこの往復を減らす方向に振られています。

仕事の進め方として何が変わるかというと、たとえばこういう場面です。

「この機能を追加して、関連テストも通るところまで」と頼んで、その間に自分は設計レビューや別タスクに集中する
リポジトリ全体のバグ掃除（bug sweep）を任せて、上がってきた結果をまとめて確認する
大きめのリファクタリングを走らせておき、こちらは仕様の検討を進める

要するに、AI を「逐一指示する道具」から「ある程度の塊を預けられる相棒」に近づけていく、という方向性です。実際にどこまで任せ切れるかは、タスクの性質や手元のプロンプト次第ではありますが、設計思想としてここを狙っているのは、日々 Claude Code を使う身としてはかなり嬉しい変化です。

誠実さ - 「できたつもり」が減る

3つの軸の中でも、僕がいちばん実務に効くと感じたのが「正直さ（honesty）」の改善です。公式も「Opus 4.8 で最も顕著な改善のひとつは、その誠実さ（honesty）だ」と書いています。

具体的には、次のような振る舞いが強化されています。

自分の作業について、不確実な点をより積極的に申告する（flag uncertainties）
裏付けのない主張をしにくくなった（less likely to make unsupported claims）

そして、僕がいちばん印象に残った数字がこれです。

Opus 4.8 is around four times less likely than its predecessor to allow flaws in code it has written to pass unremarked.

意訳すると、「Opus 4.8 は、自分が書いたコードの欠陥を、何も言わずに見逃してしまう確率が、前世代の約4分の1になっている」という内容です。

これは地味に見えて、実務ではかなり大きい話です。AI に任せていて困るのは、「できました」と自信たっぷりに返してきたのに、実は穴があった、というケースです。手戻りが発生するうえに、こちらの確認の手間も増えます。Opus 4.8 は、自分の成果物に対して「ここは怪しい」「ここは確認したほうがいい」と申告する確率が上がっているので、レビューの当たりをつけやすくなります。

「自走力が上がること」と「誠実さが上がること」は、セットで効いてきます。長く任せられても、できたつもりで嘘をつかれては安心して預けられません。長く走れて、かつ自分の進捗に正直、という組み合わせだからこそ、実務で信頼して任せられる方向に近づくわけです。

僕がサラリーマンだった頃、上司は、「物事が順調に進んでいるときは細かく報告しなくてもいい。だけど、少しでも困ったことがあったり、問題が発生したりしたときはすぐに報告しなさい。」と言っていました。人間社会もAIも同じですよね。

Fast mode が大幅に安くなった

スピードとコストの面でも大きな動きがあります。Opus 4.8 では Fast mode が利用でき、しかも従来より大幅に安くなりました。

Fast mode は、同じ Opus 4.8 を 約2.5倍の速度で動かす高速構成です。公式の表現を借りると「2.5× the speed」で出力トークンが返ってきます。別のモデルに切り替わるわけではなく、Opus 4.8 そのものを高速に動かす構成、という位置づけです。

そして料金が、以前のモデルでの Fast mode と比べて 3倍安くなりました。整理すると次のとおりです。

利用形態	入力（per 1M tokens）	出力（per 1M tokens）
通常（Opus 4.7 から据え置き）	$5	$25
Fast mode	$10	$50

通常利用の $5 / $25 は Opus 4.7 から据え置きです。Fast mode はその倍の $10 / $50 ですが、これでも「以前の Fast mode の3分の1の価格」とのことなので、速度を取りたい場面でのハードルはかなり下がりました。

Claude Code では /fast コマンドで切り替えられます（extra usage を有効にしている開発者が対象です）。API 経由で使いたい場合は、アカウントマネージャーに連絡するか、Fast mode の申し込みフォームからウェイトリストに登録する形になります。現時点では Claude Code・Claude Platform のいずれでも、限定的な research preview という位置づけです。

仕事での使いどころとしては、反復の速い作業との相性が良さそうです。小さな修正を何度も回す、対話的に詰めていく、といったテンポ重視の場面では、応答の速さがそのまま体感の快適さにつながります。じっくり考えてほしい難問は通常モード、テンポよく進めたいときは Fast mode、という使い分けができるようになるかもしれません。あとは本番環境でクリティカルなバグがあったので大至急直したい、みたいなときでしょうか。

Dynamic workflows（research preview）

Claude Code 側の新機能として、dynamic workflows も research preview で登場しています。

これは最難関のタスク向けの仕組みで、Claude がまず計画を立て、数百の subagent（サブエージェント）を並列で走らせ、結果を報告する前に自分で検証（verify）してから返してくる、というものです。公式は「数百ファイルに及ぶマイグレーション」を例に挙げていて、コードベース規模で数十万行に及ぶ移行を、着手からマージまで一気通貫でこなせるとしています。

ここは少し説明を補っておきます。subagent とは、メインの作業から枝分かれして特定のサブタスクを担当する、補助的なエージェントのことです。これを大量に並列で動かすことで、ファイル数の多い大規模な変更を分担して進められる、という発想です。

なお、dynamic workflows については別途詳しく記事に取り上げる予定です。大規模リファクタリングや一括移行のような、これまで人手で何日もかけていた作業を任せる候補として、覚えておく価値のある機能です。

安全性・アライメントの改善

性能だけでなく、安全性（アライメント）の面でも改善が報告されています。

ここで言う「アライメント（alignment）」とは、AI の振る舞いを人間の意図や価値観と一致させることを指す概念です。能力の高さとは別の軸で、「その能力を安全かつ誠実に使えるか」を評価するものだと捉えると分かりやすいと思います。

公式の評価では、Opus 4.8 は誤った振る舞い（misaligned behavior）の発生率、たとえば人をあざむく（deception）、悪用に協力してしまう（cooperation with misuse）といった挙動の頻度が、Opus 4.7 より大幅に低くなったとされています。そして、その水準は同社が最もアライメントが取れているとする Claude Mythos Preview と同程度にまで近づいた、という説明です。

Claude Mythos Preview は、Anthropic が「最もアライメントが取れたモデル（best-aligned model）」と位置づけている上位のモデルです。今回 Opus 4.8 がそこに肩を並べる水準まで来た、というのは、安心して仕事を預けるうえでも見逃せないポイントだと思います。

Opus 4.7 と Opus 4.8 の比較表

主な違いを表にまとめておきます。

項目	Opus 4.7	Opus 4.8
進化の軸	コーディング強化・命令遵守・ビジョン向上	判断力・誠実さ・長時間の自走力
SWE-Bench Pro	64.3%	69.2%
Humanity's Last Exam（with tools）	54.7%	57.9%
GDPval-AA（知識労働）	1753	1890
コードの欠陥の見逃し	-	前世代の約4分の1に低減
アライメント	概ね良好（best-aligned は Mythos Preview）	misaligned behavior が大幅低下し Mythos Preview と同水準
料金（通常・入力/出力）	$5 / $25 per 1M tokens	$5 / $25 per 1M tokens（据え置き）

ユーザーにとって、どこが嬉しいのか

ここまでの内容を、「自分の仕事にどう効くか」という視点で整理し直してみます。

1. 確認の往復が減り、自分の時間が空く

自走力が上がったことで、機能追加やバグ掃除のような「ある程度まとまった作業」を預けて、その間に別のことを進められます。AI につきっきりになる時間が減るぶん、設計や仕様検討といった人間がやるべき部分に集中しやすくなります。

2. レビューが楽になり、手戻りが減る

「コードの欠陥を黙って見逃す確率が約4分の1」という改善は、レビューの質と効率に直結します。AI が「ここは怪しい」と先に申告してくれれば、確認すべき箇所の当たりがつけやすくなります。「できたと言っていたのに穴があった」という、いちばん消耗するパターンが減るのは大きいです。

3. 速度とコストのバランスを選べる

Fast mode が3倍安くなったことで、「速さが欲しい場面では Fast mode、じっくり考えてほしい難問は通常モード」という使い分けが現実的になりました。テンポよく回したい反復作業のストレスが下がります。

4. 大規模な作業を任せる選択肢が増えた

dynamic workflows によって、数百ファイル・数十万行規模のマイグレーションのような、これまで腰が重かった作業を任せる候補が出てきました。週末に走らせておく、といった使い方も考えられます。

5. 値上げなしで性能が上がる

通常利用の料金は Opus 4.7 から据え置きです。性能向上分を追加コストなしで受け取れるのは、純粋にありがたいところです。

総じて、Opus 4.8 は「派手な単発の賢さ」よりも「安心して長く任せられること」に寄せたアップデートだと感じます。日々の開発で AI を相棒として使っている人ほど、その違いが効いてくるはずです。

Claude Code で試してみる

Opus 4.8 が利用可能な環境であれば、最新版の Claude Code の /model コマンドから選択できます。もし手元でまだ見えない場合は、アップデートしてから再起動してみてください。

claude update

Fast mode を試したいときは、Claude Code 上で /fast を実行すると切り替えられます（extra usage が有効になっている必要があります）。

なお、表示の可否やデフォルトの挙動は、プラン・provider・管理者設定によって異なります。まだ Homebrew や npm 経由で Claude Code を使っている方は、このタイミングでネイティブインストールに切り替えておくと、自動更新が効いて新機能への追従がスムーズになります。詳しい手順は Claude Code を Homebrew からネイティブインストールに切り替えたら快適になった話にまとめてあります。

まとめ

Claude Opus 4.8 の進化ポイントをまとめると、こんな感じになります。

より鋭い判断力・誠実さ・長時間の自走力という3軸での改善
ベンチマークでも SWE-Bench Pro 69.2%、GDPval-AA 1890 など実務寄りの軸で底上げ
自分が書いたコードの欠陥を見逃す確率が前世代の約4分の1に
Fast mode が登場し、2.5倍速・従来比3倍安（$10 / $50）
dynamic workflows（research preview）で大規模マイグレーションを任せられる
アライメントが改善し、misaligned behavior が Mythos Preview と同水準まで低下
通常利用の料金は Opus 4.7 から据え置き（$5 / $25）

Opus 4.7 からまだ1ヶ月半ほどでこれだけ積み重ねてくるのは驚きですが、今回のテーマは「賢さの自慢」よりも「任せやすさ」にあると感じました。長く走れて、自分の進捗に正直で、安心して預けられる方向への一歩です。

まだ触っていない方は、Claude Code や claude.ai、API から試せます。/model で Opus 4.8 を選び、その自走力と誠実さの違いを、ぜひご自身のワークフローで体感してみてください。

参考リンク

この記事をシェア

Claude Opus 4.8 がリリース。長く任せられる自走力と、より誠実な振る舞いへ

目次

Opus 4.8 の3つの軸

ベンチマークで見る性能

自走力 - 長く任せられるようになった

誠実さ - 「できたつもり」が減る

Fast mode が大幅に安くなった

Dynamic workflows（research preview）

安全性・アライメントの改善

Opus 4.7 と Opus 4.8 の比較表

ユーザーにとって、どこが嬉しいのか

Claude Code で試してみる

まとめ

参考リンク

関連記事

Claude Fable 5 と Mythos 5 が登場。Opus の上のクラスが、ついに一般提供へ

Claude Code の Dynamic Workflows で数十〜数百のサブエージェントを一度に動かそう

Claude Opus 4.8 がリリース。長く任せられる自走力と、より誠実な振る舞いへ

Claude Opus 4.7 がリリース！Effort xhigh の登場と垣間見えた Mythos のすごさ