Claude Opus 4.6 출시! 엔지니어 관점에서 본 Opus 4.5 대비 진화 포인트

2026-02-06
23분 만에 읽기
업데이트: 2026-02-06
hf_20260206_015813_f84ca8d4-c424-43d6-be98-f29a2c1f02f8.webp

목차

안녕하세요. 2026년 2월 5일(일본 시간 2월 6일), Anthropic에서 Claude의 최신 모델인 'Claude Opus 4.6'이 출시되었습니다.

평소 Claude를 개발 파트너로 삼고 있는 입장에서는 새로운 모델의 출시는 언제나 설렙니다. 이번 업데이트는 결론부터 말씀드리면 '엔지니어에게 매우 반가운 진화'가 가득 담겨 있습니다.

이 글에서는 공식 발표를 바탕으로 엔지니어의 시선에서 Opus 4.6의 특징과 Opus 4.5에서의 변화를 정리해 보고자 합니다.

애초에 Claude Opus란?

이미 알고 계신 분들도 많겠지만, Claude에는 Haiku, Sonnet, Opus라는 세 가지 모델 라인업이 있습니다. Opus는 그중에서 가장 성능이 뛰어난 '플래그십 모델(최상위·간판 모델)'로 자리 잡고 있습니다.

이전 모델인 Opus 4.5도 충분히 훌륭했지만, 이번 4.6은 거기서 한 단계 더 크게 도약했습니다.

Opus 4.6의 주요 진화 포인트

1. 코딩 능력의 대폭 강화

엔지니어에게 가장 궁금한 점은 역시 이 부분이겠죠.

Opus 4.6은 에이전트형 코딩 벤치마크인 'Terminal-Bench 2.0'에서 최고 점수를 기록했습니다. 이는 실제 터미널 조작을 포함한 더욱 실천적인 코딩 작업을 평가하는 벤치마크입니다.

구체적으로는 다음과 같은 점들이 개선되었습니다.

  • 계획성 향상 - 작업을 시작하기 전에 더 꼼꼼하게 계획을 세우게 됨
  • 장시간 에이전트 작업에 대한 지속력 - 긴 세션에서도 집중력을 잃지 않음
  • 대규모 코드 베이스에서의 신뢰성 - 거대한 리포지토리에서도 안정적으로 동작함
  • 코드 리뷰·디버깅 능력 - 자신의 실수를 찾아 수정하는 능력이 향상됨

Anthropic 스스로도 'Claude로 Claude를 만들고 있다'고 하며, 사내 엔지니어들이 매일 Claude Code를 사용하여 개발하고 있다고 합니다. 직접 사용하며 다듬은 모델이라는 점이 설득력이 있네요.

2. 100만 토큰의 컨텍스트 윈도우(베타)

이는 Opus 클래스 모델로서는 처음 있는 일로, 꽤 임팩트가 큽니다.

Opus 4.5의 컨텍스트 윈도우가 어느 정도였냐면 200K 토큰이었습니다. 그것이 단숨에 100만 토큰(베타)까지 확대되었습니다.

'컨텍스트 부패(context rot)'라고 불리는, 대화가 길어짐에 따라 모델의 성능이 떨어지는 문제도 대폭 개선되었습니다. 구체적인 수치를 보면, MRCR v2(8-needle 1M 변형)라는 장문 컨텍스트 벤치마크에서 Sonnet 4.5가 18.5%인 반면, Opus 4.6은 **76%**를 기록했습니다. 이는 그야말로 차원이 다른 개선입니다.

대규모 코드 베이스 전체를 한꺼번에 읽히거나 방대한 로그를 분석시키는 것과 같은 유스케이스에서 이 차이가 빛을 발할 것 같네요.

3. 128K 토큰 출력

출력 토큰 수도 최대 128K 토큰을 지원합니다. 이를 통해 큰 파일 생성이나 긴 코드 출력을 여러 요청으로 나누지 않고 한 번에 완료할 수 있게 됩니다.

사소해 보일 수 있지만, 에이전트 방식으로 사용하는 상황에서는 '중간에 끊기지 않는다'는 점이 꽤 중요한 포인트입니다.

4. Adaptive Thinking(적응형 사고)

기존의 Claude에서는 확장 사고(extended thinking)의 ON/OFF를 양자택일로 설정해야 했습니다.

Opus 4.6에서는 'Adaptive Thinking'이 도입되어, 모델 스스로가 '여기는 깊이 생각하는 게 좋겠군'이라고 판단하여 필요에 따라 확장 사고를 적절히 사용합니다.

즉, 간단한 질문에는 빠르게 답하고 복잡한 문제에는 신중하게 생각하는, 더욱 인간적인 행동을 하게 된 것입니다.

5. Effort 컨트롤

Adaptive Thinking과 조합하여 사용할 수 있는 신기능으로 4단계의 effort 레벨이 도입되었습니다.

  • low - 가벼운 작업용, 빠른 응답
  • medium - 밸런스형
  • high(기본값) - 필요에 따라 확장 사고 사용
  • max - 최대한의 추론력 발휘

보충하자면, API의 effort 파라미터 자체는 Opus 4.5에서도 사용할 수 있습니다(단, max는 Opus 4.6에서만 가능하며, Opus 4.5에서는 low/medium/high 3단계입니다).

공식 조언에 따르면 "Opus 4.6은 어려운 문제에 대해 더 깊이 생각하는 경향이 있으므로, 단순한 작업에서 오버싱킹(over-thinking)이 신경 쓰인다면 medium으로 낮추는 것을 추천한다"고 합니다.

비용 관리 측면에서도 작업에 따라 effort를 전환할 수 있다는 점은 반가운 소식이네요.

Claude Code를 사용하시는 분들은 여기서부터 만져보는 게 빠를 것 같습니다. /model 명령어로 Opus를 선택한 상태에서 표시되는 effort 항목에 대해 좌우 키로 레벨을 조정할 수 있습니다(high가 기본값).

API 이용 시에는 /effort 파라미터로 제어할 수 있습니다.

6. Context Compaction(컨텍스트 압축·베타)

장시간 에이전트 작업을 하다 보면 아무래도 컨텍스트 윈도우의 상한에 부딪히는 문제가 있었습니다.

Context Compaction은 컨텍스트가 한계에 도달했을 때 오래된 내용을 요약·교체하여 긴 작업을 계속하기 쉽게 만드는 메커니즘입니다.

Claude Code에서는 원래 컨텍스트 관리를 꽤 잘 해주고 있어서, 상한이 가까워지면 '오래된 tool output을 먼저 정리 -> 필요하다면 대화를 요약'하는 흐름으로 자동 compact 해줍니다(수동이라면 /compact도 있습니다). 따라서 Claude Code 사용자 입장에서는 그 메커니즘이 API 측에서도 server-side compaction으로 제공된 것(베타)이 아닐까 싶습니다.

Opus 4.5 vs Opus 4.6 비교표

엔지니어로서 궁금한 스펙을 표로 정리해 보았습니다.

항목Opus 4.5Opus 4.6
컨텍스트 윈도우200K 토큰200K(통상) + 1M(베타)
최대 출력 토큰64K 토큰128K 토큰
Adaptive Thinking없음있음(Opus 4.6 전용)
Effort 컨트롤3단계(low/medium/high)4단계(low/medium/high/max)
Compaction(컨텍스트 압축)context editing 등(client-side)server-side compaction(API: 베타)
요금(입력/출력)$5/$25 per 1M tokens$5/$25 per 1M tokens(동결)
장문 컨텍스트 성능(MRCR v2)-76%(Sonnet 4.5는 18.5%)

※출처(공식): Introducing Claude Opus 4.5 / Models overview / Effort / Adaptive thinking / Compaction / What’s new in Claude 4.6

원문 기사에서는 "Pricing remains the same at $5/$25 per million tokens"라고 명시되어 있습니다. 이 정도의 성능 향상이 있으면서도 가격 인상이 없다는 점은 사용자로서 고마운 일이네요.

단, 200K 토큰을 초과하는 프롬프트에는 프리미엄 요금($10/$37.50 per 1M tokens)이 적용된다는 점은 기억해 둡시다.

벤치마크로 보는 실력

숫자로 보면 그 진화가 더욱 명확해집니다.

  • Terminal-Bench 2.0(에이전트형 코딩) - 업계 최고 점수
  • Humanity's Last Exam(복합 추론 테스트) - 모든 프런티어 모델 중 1위
  • BrowseComp(정보 검색 능력) - 업계 최고 수준의 검색 성능
  • GDPval-AA(지식 노동 작업) - GPT-5.2를 약 144 Elo 포인트 상회하고, Opus 4.5를 190 포인트 상회
  • OpenRCA(근본 원인 분석) - 복잡한 소프트웨어 장애 진단 능력 향상
  • CyberGym(사이버 보안) - 실제 코드 베이스의 취약점 발견에 탁월

특히 엔지니어로서 주목하고 싶은 점은 근본 원인 분석(RCA)이나 사이버 보안 능력이 향상되었다는 점입니다. 장애 대응이나 보안 리뷰 상황에서 더욱 든든한 파트너가 될 것 같네요.

Claude Code의 신기능: Agent Teams

개발자를 위한 핵심 기능으로 Claude Code에 'Agent Teams'가 리서치 프리뷰로 추가되었습니다.

이는 여러 Claude Code 인스턴스를 병렬로 실행하여 팀으로서 협력적으로 작업하게 하는 기능입니다. 하나의 세션이 '팀 리드'로서 전체를 통솔하고, 다른 멤버(Teammate)들이 각각 독립된 컨텍스트 윈도우에서 작업합니다.

기존 subagent(서브 에이전트)와의 차이점이 궁금하실 텐데, subagent가 '메인 세션 내에서 움직이는 보조 작업자'로서 결과를 메인에 반환하기만 하는 반면, Agent Teams는 팀 멤버끼리 직접 메시지를 주고받을 수 있다는 것이 큰 특징입니다. 공유 작업 목록을 사용하여 작업을 자율적으로 분담하므로 더욱 복잡한 협업이 가능해집니다.

Agent Teams 활성화

Agent Teams는 현재 실험적 기능이므로 기본적으로 비활성화되어 있습니다. 사용하려면 Claude Code 설정 파일(~/.claude/settings.json이나 프로젝트 내의 .claude/settings.local.json 등)에 다음을 추가합니다.

{
  "env": {
    "CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS": "1"
  }
}

셸 환경 변수로 export CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1을 설정해도 됩니다.

팀의 시작 방법

활성화한 후 Claude에게 자연어로 팀 구성과 작업 내용을 전달하기만 하면 자동으로 팀이 편성됩니다. 예를 들어 다음과 같습니다.

Create an agent team to review PR #142. Spawn three reviewers:
- One focused on security implications
- One checking performance impact
- One validating test coverage
Have them each review and report findings.

한국어로 지시하는 경우는 다음과 같습니다.

PR #142를 리뷰하는 에이전트 팀을 만들어 줘. 리뷰어를 3명 생성해:
- 1명은 보안 측면
- 1명은 성능 영향 확인
- 1명은 테스트 커버리지 검증
각각 리뷰하고 결과를 보고하게 해줘.

이것만으로 Claude가 리드로서 3명의 리뷰어를 생성하고, 각각에게 역할을 할당하며 리뷰 결과를 통합해 줍니다.

좀 더 탐색적인 작업에도 적합합니다. 예를 들어 "CLI 도구 설계를 UX 담당, 아키텍트 담당, Devil's Advocate의 3가지 관점에서 검토해 줘"와 같은 사용법도 공식 문서에서 소개되고 있습니다.

표시 모드 선택

Agent Teams에는 두 가지 표시 모드가 있습니다.

  • In-process 모드 - 모든 팀원이 메인 터미널 내에서 동작하며, Shift+Up/Down으로 멤버를 전환하여 직접 메시지를 보낼 수 있습니다. 추가 설정이 필요 없습니다.
  • Split panes 모드 - tmux나 iTerm2를 사용하여 각 팀원이 독립된 패널에 표시됩니다. 모든 팀원의 출력을 동시에 확인할 수 있으며 클릭으로 직접 개입할 수 있습니다.

기본값은 "auto"이며, tmux 세션 내에서 실행 중이면 Split panes, 그 외에는 In-process가 됩니다. 명시적으로 지정하려면 settings.json에서 설정합니다.

{
  "teammateMode": "tmux"
}

시작 시 claude --teammate-mode in-process와 같이 플래그로 지정할 수도 있습니다.

팀 제어

팀 운영에 관한 조작도 자연어로 수행할 수 있습니다.

  • 작업 할당 - 리드가 공유 작업 목록을 관리하고 멤버가 자율적으로 작업을 가져와 수행합니다. 의존성이 있는 작업은 자동으로 차단되므로 순서를 신경 쓸 필요가 없습니다.
  • Delegate 모드 - Shift+Tab으로 전환하면 리드가 코드에 손을 대지 않고 오케스트레이션에 전념하는 모드가 됩니다.
  • 직접 개입 - In-process 모드라면 Shift+Up/Down으로 멤버 선택, Split panes 모드라면 패널을 클릭하여 개별 멤버에게 추가 지시나 질문을 할 수 있습니다.
  • 플랜 승인 - "구현 전에 플랜을 확인하게 해줘"라고 지시하면 멤버가 읽기 전용(read-only) 플랜 모드에서 계획을 세우고 리드의 승인을 받은 후 구현에 들어가는 흐름도 만들 수 있습니다.

적합한 유스케이스

Agent Teams가 특히 힘을 발휘하는 경우는 다음과 같습니다.

  • 리서치·리뷰 - PR 리뷰를 보안·성능·테스트 커버리지 등 관점별로 병렬 실시
  • 경합 가설 조사 - 버그 원인을 여러 가설로 동시에 검증하고 멤버끼리 토론하여 결론 도출
  • 신기능 병렬 구현 - 프런트엔드·백엔드·테스트를 각각 다른 멤버가 담당
  • 크로스 레이어 변경 - 여러 레이어에 걸친 변경을 각 담당으로 나누어 진행

반대로 순차 처리가 필요한 작업이나 같은 파일을 편집하는 작업, 의존성이 많은 작업은 기존의 단일 세션이나 subagent가 더 효과적입니다. Agent Teams는 각 멤버가 독립된 Claude Code 인스턴스이므로 토큰 소비도 많아진다는 점은 인지해 둡시다.

주의 사항 및 제한 사항

아직 실험적 기능이라는 점 때문에 몇 가지 제한 사항이 있습니다.

  • 세션 재개 시 In-process 모드의 멤버는 복구되지 않음(새 멤버를 다시 생성해야 함)
  • 팀은 세션당 하나까지. 중첩된 팀(멤버가 다시 팀을 만드는 것)은 불가
  • 두 멤버가 같은 파일을 편집하면 덮어쓰기가 발생하므로 파일 담당을 명확히 나누는 것이 중요

그럼에도 불구하고 인간이 리드를 감독하면서 AI가 팀으로 협력하여 작업한다는 개발 경험은 꽤 미래지향적이네요. 우선은 코드 리뷰나 리서치 같은 읽기 중심의 작업부터 시도해 보는 것이 좋을 것 같습니다.

안전성에 대하여

능력이 올라가면 걱정되는 것이 안전성이지만, Anthropic은 이 점도 확실히 챙기고 있습니다.

Opus 4.6은 기만성이나 추종성(sycophancy), 오용 협조와 같은 'misaligned behavior'의 발생률이 낮으며, 이전 모델인 Opus 4.5와 동등하거나 그 이상의 안전성을 확보하고 있다고 합니다. 또한 정당한 쿼리에 대해 과도하게 거부하는 'over-refusal' 비율은 최근 Claude 모델 중 가장 낮다고 하네요.

사이버 보안 능력이 향상된 만큼 악용 방지를 위한 새로운 프로브(탐지 기법)도 6개 추가되었습니다. 능력과 안전성의 균형을 의식하고 있다는 점은 호감이 가네요.

각 파트너사의 평가

공식 발표에는 각 파트너사의 Early Access 파트너들로부터 받은 코멘트가 게재되어 있었는데, 엔지니어로서 특히 눈에 띄는 것들을 몇 가지 골라보았습니다.

Claude Opus 4.6 is the new frontier on long-running tasks from our internal benchmarks and testing. It's also been highly effective at reviewing code. — Michael Truell, Co-founder & CEO, Cursor

Cursor의 CEO가 "장시간 작업의 새로운 프런티어", "코드 리뷰에도 매우 효과적"이라고 말한 것은 평소 Cursor를 사용하는 개발자들에게는 반가운 멘트입니다.

Across 40 cybersecurity investigations, Claude Opus 4.6 produced the best results 38 of 40 times in a blind ranking against Claude 4.5 models. Each model ran end to end on the same agentic harness with up to 9 subagents and 100+ tool calls. — Stian Kirkeberg, Head of AI & ML, NBIM

40건 중 38건에서 블라인드 테스트 승리라는 결과는 압도적이네요. 9개의 서브 에이전트와 100개 이상의 툴 호출을 동반한 테스트라는 점도 실무에 가까운 평가라 신뢰가 갑니다.

Claude Opus 4.6 autonomously closed 13 issues and assigned 12 issues to the right team members in a single day, managing a ~50-person organization across 6 repositories. — Yusuke Kaji, General Manager, AI, Rakuten

라쿠텐의 코멘트도 인상적입니다. 하루 만에 13건의 Issue를 자율적으로 클로즈하고 12건을 적절한 팀 멤버에게 할당했다는 이야기는 AI를 통한 프로젝트 관리의 가능성을 느끼게 합니다.

개인적으로 궁금한 점

여기서부터는 제 개인적인 감상을 조금 적어보겠습니다.

Opus 4.6의 진화에서 가장 기대되는 부분은 '계획성 향상'과 '장시간 작업에서의 지속력'입니다.

그동안 Claude Code로 조금 복잡한 작업을 맡기면 중간에 방향성을 잃거나 이전에 했던 일을 잊어버리는 경우가 있었습니다(Opus 4.5에서는 신경 쓰이지 않을 정도로 향상되었지만요). 이번 '긴 작업에서도 집중력이 이어진다'는 점이나 장문 컨텍스트 성능 개선(이른바 context rot 대책)이 실제 개발 흐름에서 어느 정도 효과가 있을지는 직접 사용해 보며 지켜보고 싶습니다.

또한 effort 컨트롤의 도입은 비용 최적화 관점에서도 큰 의미가 있다고 생각합니다. 작업 종류에 따라 effort를 적절히 사용함으로써 품질을 유지하면서도 비용을 절감할 수 있을 것 같습니다.

정리

Claude Opus 4.6은 엔지니어에게 "기다렸던" 업데이트였습니다.

  • 코딩·디버깅 능력의 대폭 향상
  • 100만 토큰의 컨텍스트 윈도우
  • Adaptive Thinking과 effort 컨트롤을 통한 유연한 활용
  • Context Compaction을 통한 장시간 작업의 안정성
  • Agent Teams를 통한 병렬 작업(Claude Code)
  • 성능 향상에도 불구하고 가격은 동결

"AI에게 코드를 쓰게 한다"에서 "AI와 팀으로 개발한다"로. Opus 4.6은 그 흐름을 더욱 가속화하는 모델이 될 것 같습니다.

아직 접해보지 않으신 분들은 claude.ai나 API, Cursor 등을 통해 바로 테스트해 보실 수 있으니, 꼭 한 번 그 실력을 체감해 보시기 바랍니다. 분명 "아, 이건 다르네"라고 느끼실 겁니다.

참고 링크

이 기사 공유하기

관련 기사