Claude Opus 4.8 출시. 오랫동안 맡길 수 있는 자율 실행 능력과, 보다 성실한 행동으로

2026-05-30
21분 만에 읽기
업데이트: 2026-05-31
claude-opus-48.webp

목차

안녕하세요. 2026년 5월 29일, Anthropic에서 Claude의 새로운 모델 「Claude Opus 4.8」을 일반 공개했습니다.

Opus 4.7이 등장한 지 아직 한 달 반 정도밖에 되지 않았는데, 벌써 다음 버전이 나왔네요.

솔직히 말하면, 최근 AI 코딩 업계에서는 OpenAI의 Codex의 기세가 엄청났고, 흐름은 확실히 Codex 쪽으로 기울어져 있었습니다. 이전까지 「코딩이라면 Claude Code가 최고」라고 단언하던 사람들까지 잇달아 Codex를 주력으로 갈아타기 시작했을 정도입니다. SNS에서는 「이제 Claude는 필요 없다」고까지 말하는 사람도 있었습니다. 하지만 뭐, 저는 Anthropic의 방침이랄까 철학적인 부분이 마음에 들고, 개발 경험도 Claude Code 쪽이 압도적으로 좋았기 때문에, 신경 쓰지 않고 Claude Code만 사용했습니다만.

그런 타이밍이었기에, 이번 Opus 4.8은 개인적으로 오랫동안 기다려온 업그레이드였습니다. 여전한 진화 속도에 놀라면서도, 여기서 한 단계 기어를 올려왔구나 하는 든든함을 느끼고 있습니다.

이번 발표를 읽고 제가 먼저 느낀 것은, 「숫자의 임팩트」보다 「작업을 맡기기 쉬움」에 무게 중심이 이동해왔다는 점입니다. 공식 소개문도 벤치마크 수치보다 먼저 「더 날카로운 판단력(sharper judgment)」, 「자신의 진행 상황에 대한 솔직함(more honesty about its own progress)」, 「이전보다 더 오래 자율적으로 작업할 수 있는 능력(the ability to work independently for longer)」이라는 세 가지를 언급하고 있습니다.

이 글에서는 공식 발표를 바탕으로, Opus 4.8의 특징과 그것이 일상적인 업무에 어떻게 영향을 미치는지 정리해보겠습니다. 가격은 Opus 4.7에서 동결되었으며, API에서는 claude-opus-4-8이라는 모델 ID로 이용할 수 있습니다.

Opus 4.8의 3가지 축

Anthropic이 내세우는 진화의 축은 다음 세 가지입니다.

  1. 더 날카로운 판단력 - 어려운 상황에서의 의사결정이 개선되었다
  2. 자신의 진행 상황에 대한 솔직함 - 할 수 있는 것과 할 수 없는 것을 정확하게 보고한다
  3. 더 오래 자율적으로 작업할 수 있는 능력 - 세세하게 개입하지 않아도 긴 세션을 통해 작업을 끝까지 완수한다

순서대로 벤치마크와 실용적인 측면 양쪽에서 살펴보겠습니다.

벤치마크로 보는 성능

먼저 공식이 공개한 주요 벤치마크 비교입니다. Opus 4.7, 그리고 타사의 GPT-5.5와 Gemini 3.1 Pro를 나란히 놓은 수치가 나와 있습니다.

(출처:Introducing Claude Opus 4.8 \ Anthropic

대략 살펴보면, 코딩(SWE-Bench Pro에서 69.2%), 추론(Humanity's Last Exam), 컴퓨터 조작, 지식 노동(GDPval-AA), 금융 분석 등 많은 영역에서 Opus 4.7을 한 단계 끌어올렸습니다.

공정성을 위해 언급하자면, Terminal-Bench 2.1(터미널 상에서의 에이전트적 코딩)에서는 GPT-5.5가 78.2%로 앞서 있어, 여기서는 Opus 4.8의 74.6%를 상회하고 있습니다. 모든 항목에서 1위인 것은 아닙니다. 그렇다 해도, SWE-Bench Pro에서의 64.3% → 69.2%라는 향상이나, 지식 노동을 측정하는 GDPval-AA에서 1753 → 1890으로 한 발 앞서 있는 점을 보면, 실무에 가까운 태스크에서의 전반적인 향상이 확실히 효과를 발휘하고 있다는 인상입니다.

벤치마크는 어디까지나 한 단면에 불과하지만, 「전 세대에서 순조롭게, 그것도 실무 중심의 축에서 성장하고 있다」는 것이 솔직한 해석이라고 생각합니다.

자율 작업 능력 - 더 오래 맡길 수 있게 되었다

개인적으로 이번에 가장 주목하고 있는 것이 이 「자율 작업 능력」의 향상입니다.

공식은 Claude Code에서의 동작에 대해, 「경험 많은 엔지니어처럼, 끊임없는 확인 없이 판단을 내린다(makes calls like an experienced engineer without needing constant check-ins)」고 표현하고 있습니다. 장시간에 걸친 세션에서도 이탈하지 않고, 저장소 안에서 작업을 끝까지 완수하기 때문에, 하나의 기능 추가나 버그 수정 마무리 작업을 통째로 맡기고, 자신은 다음 작업으로 넘어갈 수 있는 사용 방식이 가능합니다.

여기서 조금 풀어서 설명해보겠습니다. 지금까지의 AI 코딩은 어쩔 수 없이 「지시한다 → 출력을 확인한다 → 방향을 수정한다」는 왕복이 필요했습니다. 긴 태스크일수록 이 확인 비용이 쌓여, 결국 계속 붙어 있어야 하는 경우가 많았습니다. Opus 4.8은 이 왕복을 줄이는 방향으로 조정되어 있습니다.

업무 진행 방식으로 무엇이 달라지는가 하면, 예를 들어 이런 장면입니다.

  • 「이 기능을 추가하고, 관련 테스트도 통과하는 데까지」라고 부탁하고, 그 사이에 자신은 설계 리뷰나 다른 태스크에 집중한다
  • 저장소 전체의 버그 정리(bug sweep)를 맡기고, 올라온 결과를 한꺼번에 확인한다
  • 큰 리팩토링을 진행시켜 두고, 이쪽은 사양 검토를 진행한다

요컨대, AI를 「일일이 지시하는 도구」에서 「어느 정도의 덩어리를 맡길 수 있는 파트너」에 가깝게 만들어가는 방향성입니다. 실제로 어디까지 맡길 수 있는지는 태스크의 성격이나 프롬프트에 따라 다르지만, 설계 사상으로서 이 부분을 목표로 하고 있다는 것은, 매일 Claude Code를 사용하는 입장에서 꽤 반가운 변화입니다.

성실함 - 「다 된 것 같은 착각」이 줄어든다

세 가지 축 중에서도, 제가 실무에 가장 효과적이라고 느낀 것이 「솔직함(honesty)」의 개선입니다. 공식도 「Opus 4.8에서 가장 두드러진 개선 중 하나는 그 성실함(honesty)이다」라고 쓰고 있습니다.

구체적으로는 다음과 같은 동작이 강화되었습니다.

  • 자신의 작업에 대해, 불확실한 점을 더 적극적으로 보고한다(flag uncertainties)
  • 근거 없는 주장을 하기 어려워졌다(less likely to make unsupported claims)

그리고 제가 가장 인상에 남은 수치가 이것입니다.

Opus 4.8 is around four times less likely than its predecessor to allow flaws in code it has written to pass unremarked.

의역하면, 「Opus 4.8은, 자신이 작성한 코드의 결함을 아무 말 없이 그냥 넘겨버릴 확률이, 전 세대의 약 4분의 1이 되었다」는 내용입니다.

이것은 겉으로 보기에 소소해 보이지만, 실무에서는 꽤 큰 이야기입니다. AI에 맡겼을 때 곤란한 것은, 「완료했습니다」라고 자신 있게 돌아왔는데, 실은 구멍이 있었다는 경우입니다. 재작업이 발생하는 데다, 이쪽의 확인 수고도 늘어납니다. Opus 4.8은, 자신의 결과물에 대해 「여기는 수상하다」「여기는 확인하는 편이 좋다」고 보고할 확률이 높아졌기 때문에, 리뷰의 포인트를 잡기 쉬워집니다.

「자율 작업 능력이 올라가는 것」과 「성실함이 올라가는 것」은 세트로 효과를 발휘합니다. 오래 맡길 수 있어도, 다 된 척 거짓말을 하면 안심하고 맡길 수 없습니다. 오래 달릴 수 있고, 또한 자신의 진행 상황에 솔직하다는 조합이기 때문에, 실무에서 신뢰하고 맡길 수 있는 방향에 가까워지는 것입니다.

제가 직장인이었을 때, 상사는 「일이 순조롭게 진행될 때는 세세하게 보고하지 않아도 된다. 하지만 조금이라도 어려운 일이 생기거나, 문제가 발생했을 때는 바로 보고해라.」고 말했습니다. 인간 사회도 AI도 마찬가지네요.

Fast mode가 대폭 저렴해졌다

속도와 비용 면에서도 큰 움직임이 있습니다. Opus 4.8에서는 Fast mode를 이용할 수 있으며, 게다가 기존보다 대폭 저렴해졌습니다.

Fast mode는, 동일한 Opus 4.8을 약 2.5배의 속도로 동작시키는 고속 구성입니다. 공식의 표현을 빌리면 「2.5× the speed」로 출력 토큰이 반환됩니다. 다른 모델로 전환되는 것이 아니라, Opus 4.8 그 자체를 고속으로 동작시키는 구성이라는 위치입니다.

그리고 요금이, 이전 모델의 Fast mode와 비교해 3배 저렴해졌습니다. 정리하면 다음과 같습니다.

이용 형태입력(per 1M tokens)출력(per 1M tokens)
일반(Opus 4.7에서 동결)$5$25
Fast mode$10$50

일반 이용의 $5 / $25는 Opus 4.7에서 동결입니다. Fast mode는 그 두 배인 $10 / $50이지만, 이것도 「이전 Fast mode의 3분의 1 가격」이라고 하니, 속도를 원하는 장면에서의 허들은 상당히 낮아졌습니다.

Claude Code에서는 /fast 명령어로 전환할 수 있습니다(extra usage를 활성화한 개발자가 대상입니다). API를 통해 사용하고 싶은 경우는, 계정 매니저에게 연락하거나, Fast mode 신청 폼에서 대기자 명단에 등록하는 방식이 됩니다. 현시점에서는 Claude Code・Claude Platform 모두에서, 한정적인 research preview라는 위치입니다.

업무에서의 활용처로는, 반복이 빠른 작업과의 궁합이 좋을 것 같습니다. 작은 수정을 여러 번 반복하거나, 대화식으로 다듬어 나가는 등 템포를 중시하는 장면에서는, 응답 속도가 그대로 체감 쾌적함으로 이어집니다. じっくり 생각해주길 바라는 어려운 문제는 일반 모드, 템포 있게 진행하고 싶을 때는 Fast mode라는 구분 사용이 가능해질지도 모릅니다. 또한 프로덕션 환경에서 치명적인 버그가 있어 지금 당장 고쳐야 할 때 같은 경우도 해당될 것 같습니다.

Dynamic workflows(research preview)

Claude Code 측의 새 기능으로, dynamic workflows도 research preview로 등장했습니다.

이것은 가장 어려운 태스크를 위한 구조로, Claude가 먼저 계획을 세우고, 수백 개의 subagent(서브에이전트)를 병렬로 실행하며, 결과를 보고하기 전에 스스로 검증(verify)하고 나서 반환하는 것입니다. 공식은 「수백 개의 파일에 걸친 마이그레이션」을 예로 들고 있으며, 코드베이스 규모로 수십만 줄에 이르는 이전을 착수부터 머지까지 일관되게 처리할 수 있다고 합니다.

여기서 조금 설명을 보충하겠습니다. subagent란, 메인 작업에서 분기하여 특정 서브태스크를 담당하는 보조적인 에이전트입니다. 이것을 대량으로 병렬 실행함으로써, 파일 수가 많은 대규모 변경을 분담하여 진행할 수 있다는 발상입니다.

또한, dynamic workflows에 대해서는 별도로 자세한 기사를 다룰 예정입니다. 대규모 리팩토링이나 일괄 이전과 같이, 지금까지 사람이 며칠씩 걸려 하던 작업을 맡길 후보로서, 기억해둘 가치가 있는 기능입니다.

안전성・얼라인먼트의 개선

성능뿐만 아니라, 안전성(얼라인먼트)면에서도 개선이 보고되고 있습니다.

여기서 말하는 「얼라인먼트(alignment)」란, AI의 동작을 인간의 의도나 가치관과 일치시키는 것을 가리키는 개념입니다. 능력의 높낮이와는 별개의 축으로, 「그 능력을 안전하고 성실하게 사용할 수 있는가」를 평가하는 것이라고 이해하면 알기 쉬울 것 같습니다.

공식 평가에서는, Opus 4.8은 잘못된 동작(misaligned behavior)의 발생률, 예를 들어 사람을 속이는(deception), 악용에 협력해버리는(cooperation with misuse)과 같은 동작의 빈도가, Opus 4.7보다 대폭 낮아졌다고 합니다. 그리고 그 수준은 동사가 가장 얼라인먼트가 잘 되어 있다고 하는 Claude Mythos Preview와 같은 정도까지 가까워졌다는 설명입니다.

Claude Mythos Preview는, Anthropic이 「가장 얼라인먼트가 잘 된 모델(best-aligned model)」로 위치시키고 있는 상위 모델입니다. 이번에 Opus 4.8이 그 수준에 어깨를 나란히 하게 되었다는 것은, 안심하고 업무를 맡기는 데 있어서도 놓칠 수 없는 포인트라고 생각합니다.

Opus 4.7과 Opus 4.8의 비교표

주요 차이점을 표로 정리해두겠습니다.

항목Opus 4.7Opus 4.8
진화의 축코딩 강화・명령 준수・비전 향상판단력・성실함・장시간 자율 작업 능력
SWE-Bench Pro64.3%69.2%
Humanity's Last Exam(with tools)54.7%57.9%
GDPval-AA(지식 노동)17531890
코드 결함 간과-전 세대의 약 4분의 1로 감소
얼라인먼트대체로 양호(best-aligned는 Mythos Preview)misaligned behavior가 대폭 감소하여 Mythos Preview와 동일 수준
요금(일반・입력/출력)$5 / $25 per 1M tokens$5 / $25 per 1M tokens(동결)

사용자에게 어디가 좋은가

여기까지의 내용을, 「자신의 업무에 어떻게 효과가 있는가」라는 관점에서 다시 정리해보겠습니다.

1. 확인의 왕복이 줄어들고, 자신의 시간이 생긴다

자율 작업 능력이 올라감으로써, 기능 추가나 버그 정리 같은 「어느 정도 덩어리가 있는 작업」을 맡기고, 그 사이에 다른 일을 진행할 수 있습니다. AI에 계속 붙어 있는 시간이 줄어드는 만큼, 설계나 사양 검토 같은 사람이 해야 할 부분에 집중하기 쉬워집니다.

2. 리뷰가 편해지고, 재작업이 줄어든다

「코드 결함을 말없이 간과할 확률이 약 4분의 1」이라는 개선은, 리뷰의 질과 효율에 직결됩니다. AI가 「여기는 수상하다」고 먼저 보고해주면, 확인해야 할 부분의 포인트를 잡기 쉬워집니다. 「다 됐다고 했는데 구멍이 있었다」는, 가장 소모적인 패턴이 줄어드는 것은 큰 장점입니다.

3. 속도와 비용의 균형을 선택할 수 있다

Fast mode가 3배 저렴해짐으로써, 「속도가 필요한 장면에서는 Fast mode, 천천히 생각해주길 바라는 어려운 문제는 일반 모드」라는 구분 사용이 현실적이 되었습니다. 템포 있게 돌리고 싶은 반복 작업의 스트레스가 낮아집니다.

4. 대규모 작업을 맡길 선택지가 늘었다

dynamic workflows에 의해, 수백 개의 파일・수십만 줄 규모의 마이그레이션 같이, 지금까지 엄두가 나지 않던 작업을 맡길 후보가 생겼습니다. 주말에 실행시켜 두는 등의 사용 방식도 생각해볼 수 있습니다.

5. 가격 인상 없이 성능이 올라간다

일반 이용 요금은 Opus 4.7에서 동결입니다. 성능 향상분을 추가 비용 없이 받을 수 있는 것은, 순수하게 감사한 부분입니다.

전반적으로, Opus 4.8은 「화려한 단발성 영리함」보다 「안심하고 오래 맡길 수 있음」에 치중한 업데이트라고 느낍니다. 매일의 개발에서 AI를 파트너로 사용하는 사람일수록, 그 차이가 효과를 발휘할 것입니다.

Claude Code에서 시험해보기

Opus 4.8을 이용할 수 있는 환경이라면, 최신 버전의 Claude Code의 /model 명령어에서 선택할 수 있습니다. 만약 손에 아직 보이지 않는 경우는, 업데이트 후 재시작해보세요.

claude update

Fast mode를 시험해보고 싶을 때는, Claude Code 상에서 /fast를 실행하면 전환할 수 있습니다(extra usage가 활성화되어 있어야 합니다).

또한, 표시 여부나 기본 동작은 플랜・provider・관리자 설정에 따라 다릅니다. 아직 Homebrew나 npm을 통해 Claude Code를 사용하고 있는 분은, 이 타이밍에 네이티브 설치로 전환해두면, 자동 업데이트가 작동하여 새 기능 추적이 원활해집니다. 자세한 절차는 Claude Code를 Homebrew에서 네이티브 설치로 전환했더니 쾌적해진 이야기에 정리해두었습니다.

정리

Claude Opus 4.8의 진화 포인트를 정리하면, 이런 느낌이 됩니다.

  • 더 날카로운 판단력・성실함・장시간 자율 작업 능력이라는 3가지 축에서의 개선
  • 벤치마크에서도 SWE-Bench Pro 69.2%, GDPval-AA 1890 등 실무 중심의 축에서 전반적인 향상
  • 자신이 작성한 코드의 결함을 간과할 확률이 전 세대의 약 4분의 1로
  • Fast mode가 등장하여, 2.5배 속도・기존 대비 3배 저렴($10 / $50)
  • dynamic workflows(research preview)로 대규모 마이그레이션을 맡길 수 있다
  • 얼라인먼트가 개선되어, misaligned behavior가 Mythos Preview와 동일 수준까지 감소
  • 일반 이용 요금은 Opus 4.7에서 동결($5 / $25)

Opus 4.7에서 아직 한 달 반 정도밖에 되지 않았는데 이만큼 쌓아오는 것은 놀랍지만, 이번 테마는 「영리함 자랑」보다 「맡기기 쉬움」에 있다고 느꼈습니다. 오래 달릴 수 있고, 자신의 진행 상황에 솔직하며, 안심하고 맡길 수 있는 방향으로의 한 걸음입니다.

아직 사용해보지 않은 분은, Claude Code나 claude.ai, API에서 시험해볼 수 있습니다. /model에서 Opus 4.8을 선택하고, 그 자율 작업 능력과 성실함의 차이를, 꼭 직접 자신의 워크플로우에서 체감해보세요.

참고 링크

이 기사 공유하기

관련 기사