홈
/
Claude Code
/
Claude Sonnet 4.6 출시! 엔지니어 관점에서 본 Sonnet 4.5에서의 진화와 '가성비 최강'의 실력

Claude Code

Claude Sonnet 4.6 출시! 엔지니어 관점에서 본 Sonnet 4.5에서의 진화와 '가성비 최강'의 실력

2026-02-19

21분 만에 읽기

업데이트: 2026-02-19

日本語 | English | Deutsch

hf_20260219_005942_2b8cb704-cd95-414e-b6e9-6f5bc0358d2a.webp

Claude Sonnet은 어떤 모델인가요?

Claude에는 Haiku, Sonnet, Opus라는 세 가지 모델 라인업이 있습니다. Sonnet은 그 중간에 위치한 '밸런스형 모델'로, 성능과 비용의 조화를 중시하는 것이 특징입니다.

Sonnet 4.5도 충분히 실용적인 모델이었지만, Opus급 모델과 비교하면 뒤처지는 면이 있었습니다. 이번 Sonnet 4.6은 그 격차를 크게 좁혔습니다. 벤치마크에서는 Opus 4.5를 뛰어넘는 경우도 있습니다.

Sonnet 4.6의 주요 진화 포인트

1. 코딩 능력이 대폭 향상

엔지니어로서 가장 궁금한 부분부터 살펴보겠습니다.

결론부터 말씀드리면, 최근 출시된 Opus 4.6과 비교하면 역시 최상위 모델에는 미치지 못합니다. 벤치마크상으로도 Opus 4.6이 한 단계 위에 있다는 것은 나중에 비교표에서 확인할 수 있습니다. 다만 주목해야 할 점은 **'이전 세대 플래그십이었던 Opus 4.5를 넘어섰다'**는 점입니다.

공식 발표에 따르면, 선행 이용한 개발자들이 Claude Code에서 비교해 본 결과, **Sonnet 4.5보다 Sonnet 4.6을 선호하는 비율이 약 70%**였습니다. 그리고 2025년 11월 시점에서 최강 모델이었던 Opus 4.5와 비교해도 59%의 확률로 Sonnet 4.6이 더 선호되었다고 합니다. 즉, '이전 세대라면 최상위인 Opus보다 Sonnet 4.6이 더 낫다'고 느끼는 개발자가 과반수를 넘은 셈입니다.

Sonnet의 가격대($3/$15)로 이전 세대 Opus의 성능을 뛰어넘는다는 것은 상당히 임팩트 있는 이야기네요.

구체적으로 어떤 점이 개선되었는지 사용자 피드백을 정리하면 다음과 같습니다.

코드를 수정하기 전에 먼저 기존 컨텍스트를 충분히 읽게 됨
공통 로직을 중복시키지 않고 제대로 공통화함
오버 엔지니어링이나 '날림 작업'이 줄어듦
지시 준수 능력이 향상됨
'성공했습니다'라는 거짓 보고나 할루시네이션(환각)이 줄어듦
멀티 스텝 태스크에서의 일관성이 향상됨

특히 '컨텍스트를 제대로 읽고 나서 수정한다'는 점은 평소 Claude Code나 Cursor를 사용하면서 절실히 느끼는 부분입니다. 기존 코드의 의도를 무시하고 새로운 코드를 작성해 버리는 경험이 있는 분들에게는 반가운 개선 사항일 것입니다.

2. 벤치마크로 보는 'Opus에 육박하는 실력'

구체적인 수치를 보면 Sonnet 4.6이 어디까지 Opus급에 근접했는지 잘 알 수 있습니다.

벤치마크	Sonnet 4.6	Opus 4.6	Sonnet 4.5	개요
SWE-bench Verified	79.6%	80.8%	77.2%	실제 소프트웨어 버그 수정 태스크
Terminal-Bench 2.0	59.1%	65.4%	51.0%	터미널 조작을 포함한 코딩 태스크
OSWorld-Verified	72.5%	72.7%	61.4%	실제 환경에서의 PC 조작 태스크
τ²-bench（Retail）	91.7%	91.9%	86.2%	고객 서비스 대응
GDPval-AA	1633	1606	1276	지식 노동 태스크 (Elo 레이팅)
GPQA Diamond	89.9%	91.3%	83.4%	대학원 수준의 과학 문제
ARC-AGI-2	58.3%	68.8%	13.6%	새로운 패턴에 대한 추론 능력

※ ARC-AGI-2는 high effort 조건에서 Sonnet 4.6이 60.4%라는 결과도 보고되었습니다(표의 58.3%는 max effort 값입니다).

이 표에서 읽을 수 있는 점은 '분야에 따라 Sonnet으로 충분한 경우와 Opus를 선택해야 하는 경우가 명확히 나뉜다'는 것입니다. 구체적인 예로 생각해 봅시다.

Sonnet 4.6으로 충분한(또는 Sonnet이 더 적합한) 경우:

일상적인 버그 수정 및 기능 추가 (SWE-bench: 79.6% vs 80.8%) — 차이는 불과 1.2포인트. 'Issue를 전달하고 PR을 생성하는' 정도의 태스크라면 비용이 저렴한 Sonnet을 사용하는 것이 합리적입니다.
브라우저 조작 및 폼 입력 자동화 (OSWorld: 72.5% vs 72.7%) — 사실상 동일 스코어. E2E 테스트 자동화나 사내 시스템 조작 자동화와 같은 컴퓨터 조작 태스크는 Sonnet으로 충분합니다.
문서 작성 및 제안서 초안 작성 (GDPval-AA: 1633 vs 1606) — 오히려 Sonnet의 점수가 더 높습니다. 실무적인 오피스 워크는 Sonnet의 특기 영역입니다.
고객 지원 봇 구축 (τ²-bench: 91.7% vs 91.9%) — 거의 동등합니다. 대량의 요청을 처리하는 지원 에이전트는 비용 차이가 크므로 Sonnet이 최선의 선택일 것입니다.

Opus 4.6을 선택해야 하는 경우:

복잡한 터미널 조작을 동반하는 에이전트 (Terminal-Bench: 59.1% vs 65.4%) — 6포인트 이상의 차이. CI/CD 파이프라인 구축이나 인프라 구성 자동화 등 긴 명령 체인을 정확하게 수행해야 하는 상황에서는 Opus의 안정감이 필요합니다.
미지의 패턴에 대한 고도의 추론 (ARC-AGI-2: 58.3% vs 68.8%) — 10포인트 이상의 차이. 전례 없는 아키텍처 설계나 기존 해법이 통하지 않는 난제에 도전한다면 Opus의 추론력이 빛을 발합니다.
난이도 높은 분야의 전문적인 판단 (GPQA Diamond: 89.9% vs 91.3%) — 차이는 작지만 의료, 법률, 과학 등 '실수하면 돌이킬 수 없는' 영역에서는 조금이라도 정밀도가 높은 Opus를 선택하는 것이 안심이 됩니다.

물론 이는 어디까지나 벤치마크 수치에서 읽을 수 있는 경향입니다. 실제로 사용해 보면 프롬프트 작성 방식이나 태스크의 성격에 따라 인상이 크게 달라지는 경우도 드물지 않습니다. '처음에 어떤 것을 시도해 볼지'에 대한 기준으로 삼고, 나머지는 자신의 유스케이스에서 직접 테스트해 보는 것이 가장 확실합니다.

3. 100만 토큰 컨텍스트 윈도우 (베ータ)

Sonnet 4.6은 100만 토큰의 컨텍스트 윈도우(베타)를 지원합니다. 참고로 1M 컨텍스트 자체는 Sonnet 4.5에서도 베타로 제공되었지만, 4.6에서는 롱 컨텍스트 하에서의 추론 품질이 더욱 개선되었다는 점이 실무상의 차이점입니다.

코드베이스 전체나 방대한 계약서, 수십 편의 논문을 한 번의 요청에 포함할 수 있을 뿐만 아니라, 그 모든 컨텍스트에 대해 효과적으로 추론할 수 있다는 점이 중요합니다.

흥미로운 사례로 공식 발표에서 소개된 Vending-Bench Arena가 있습니다. 이는 (시뮬레이션상의) 비즈니스를 장기간 운영하며 AI 모델끼리 수익을 경쟁하는 벤치마크입니다. Sonnet 4.6은 처음 10개월 동안 설비 투자에 집중하고, 후반부에 단숨에 수익성으로 전환하는 독자적인 전략을 세워 다른 모델들을 크게 따돌렸다고 합니다.

이러한 장기적인 안목에서의 계획과 판단이 가능한 것은 바로 롱 컨텍스트의 혜택입니다.

4. 컴퓨터 조작 (Computer Use)의 대폭 진화

Sonnet 4.6의 또 다른 핵심은 컴퓨터 조작의 진화입니다.

OSWorld-Verified에서 **72.5%**를 기록한 것은 앞서 소개했지만, 2024년 10월에 첫 컴퓨터 조작 모델로 Claude 3.5 Sonnet이 등장했을 때 스코어는 10%대였습니다. 거기서 약 16개월 만에 70%대까지 도달했다는 것은 개선 속도가 정말 놀랍습니다.

실제로 선행 이용한 개발자들로부터 복잡한 스프레드시트 내비게이션이나 여러 단계의 웹 폼 입력 등에서 '인간 수준의 조작 능력'이 보인다는 보고가 올라오고 있습니다. 여러 브라우저 탭을 넘나들며 정보를 집약하는 태스크도 수행할 수 있게 되었다고 합니다.

동시에 프롬프트 인젝션 공격에 대한 내성도 Sonnet 4.5보다 대폭 개선되었습니다. 컴퓨터 조작은 보안 리스크도 동반하기 때문에 이 점의 개선은 실무 운영상 매우 중요합니다.

5. Adaptive Thinking과 Effort 컨트롤

Opus 4.6에서 도입된 Adaptive Thinking(모델 스스로 사고의 깊이를 조정하는 기능)이 Sonnet 4.6에서도 지원됩니다.

또한 기존의 extended thinking(확장 사고) 모드도 지원하므로 용도에 따라 나누어 사용할 수 있습니다.

공식 가이드에 따르면 "Sonnet 4.6은 extended thinking을 끄더라도 강력한 퍼포먼스를 발휘하므로, 속도와 성능의 균형을 찾기 위해 다양하게 시도해 보길 권장한다"고 합니다.

즉, thinking 없이 고속으로 사용하다가 -> 어려운 태스크는 effort를 높이고 -> 최대한의 추론이 필요하면 Opus 4.6으로 전환하는 단계적인 활용이 자연스럽게 가능해진 것입니다.

6. Context Compaction (컨텍스트 압축, 베타)

Opus 4.6과 마찬가지로 컨텍스트가 상한에 가까워졌을 때 오래된 내용을 자동으로 요약하는 Context Compaction도 베타로 이용 가능합니다.

장시간의 에이전트 태스크에서 컨텍스트가 넘치는 문제는 개발자들에게 일상적인 일이죠. 이 기능을 통해 세션 도중에 대화를 리셋하는 빈도가 상당히 줄어들 것으로 보입니다.

Sonnet 4.5 vs Sonnet 4.6 비교표

엔지니어로서 궁금한 스펙을 표로 정리했습니다.

항목	Sonnet 4.5	Sonnet 4.6
컨텍스트 윈도우	200K(일반) + 1M(베타)	200K(일반) + 1M(베타)
Adaptive Thinking	없음	있음
Extended Thinking	있음	있음
컴퓨터 조작	대응 (OSWorld 61.4%)	대폭 개선 (OSWorld 72.5%)
SWE-bench Verified	77.2%	79.6%
요금 (입력/출력)	$3/$15 per 1M tokens	$3/$15 per 1M tokens (동결)

※ 출처(공식): Introducing Sonnet 4.6 / Claude Sonnet 4.6 System Card / Models overview

요금이 Sonnet 4.5와 변함없이 $3/$15 per 1M tokens라는 점은 이 성능 향상을 고려할 때 경이로운 가성비입니다. Opus 4.6의 $5/$25와 비교해도 대폭 저렴합니다.

Sonnet 4.6의 포지셔닝 — '선택지가 늘어났다'는 것

개인적으로는 앞으로도 Opus 4.6을 메인으로 사용할 생각입니다. 역시 추론의 깊이나 에이전트 운영의 안정감에서는 Opus가 한 수 위이며, 코딩 작업의 결정적인 순간에 차이가 난다는 것을 실감하고 있기 때문입니다.

하지만 Sonnet 4.6의 등장으로 '모든 태스크에 Opus를 사용할 필요가 있는가?'라는 선택지가 생긴 것은 큰 의미가 있습니다. 예를 들어 다음과 같은 케이스에서는 Sonnet 4.6에 맡겨 비용을 절감하는 것도 충분히 가능할 것입니다.

대량으로 실행하는 에이전트 — 거의 동등한 성능에 입력·출력 비용 모두 40% 저렴. 실행 횟수가 많을수록 차이가 커집니다.
프런트엔드 개발 — 디자인 감각이 뛰어나다는 점이 파트너사들로부터 특히 높게 평가받고 있습니다.
문서 이해 — OfficeQA에서 Opus 4.6과 동등한 스코어를 기록했습니다.
컴퓨터 조작 — OSWorld에서 Opus 4.6과 거의 동일한 스코어를 기록했습니다.

반면 대규모 코드베이스 리팩터링이나 여러 에이전트의 워크플로 조정 등 가장 깊은 추론력이 요구되는 태스크에서는 여전히 Opus 4.6이 우세하다는 것이 공식적인 견해입니다. 제 개발 스타일로는 이런 상황이 더 많아서 Opus 중심은 변하지 않겠지만, 적재적소에 Sonnet을 섞어 씀으로써 전체 비용을 최적화할 수 있다는 점은 반갑습니다.

프로덕트 업데이트 정보

Sonnet 4.6 출시와 함께 몇 가지 프로덕트 업데이트도 발표되었습니다.

무료 플랜 확충

claude.ai와 Claude Cowork의 무료 플랜 및 Pro 플랜에서 Sonnet 4.6이 기본 모델이 되었습니다. 또한 무료 플랜에서도 파일 생성, 커넥터, 스킬, Compaction 기능을 사용할 수 있게 되었습니다.

이는 상당히 큰 변화로, 무료 사용자도 꽤 실용적인 개발 경험을 할 수 있게 되었다는 뜻입니다.

API 도구 모음 정식 출시 (GA)

그동안 베타였던 다음 API 도구들이 정식 버전(GA)이 되었습니다.

Code Execution (코드 실행)
Memory (기억)
Programmatic Tool Calling (프로그램 방식 도구 호출)
Tool Search (도구 검색)
Tool Use Examples (도구 사용 예시 제공)

또한 Web Search와 Fetch 도구가 자동으로 코드를 실행하여 검색 결과를 필터링하는 메커니즘이 추가되어 응답 품질과 토큰 효율이 모두 개선되었습니다.

Claude in Excel에서 MCP 커넥터 지원

Excel 애드인이 MCP 커넥터를 지원하게 되어 Excel 내에서 외부 도구(S&P Global, LSEG, PitchBook 등)의 데이터를 직접 참조할 수 있게 되었습니다. claude.ai에서 설정한 MCP 커넥터를 그대로 사용할 수 있다고 합니다.

안전성에 대하여

Sonnet 4.6은 Anthropic의 기존 Claude 모델과 동등하거나 그 이상의 안전성을 확보하고 있다고 합니다.

시스템 카드에서 안전 연구원들은 Sonnet 4.6에 대해 "따뜻하고 정직하며 사교적이고 때로는 유머러스한 캐릭터, 매우 강력한 안전 행동, 그리고 고위험 misalignment(정렬 불량) 징후는 보이지 않는다"고 평가했습니다.

일부 얼라이먼트 지표('거짓말을 하지 않는가', '사용자에게 영합하여 틀린 답변을 하지 않는가', '지시를 넘어 멋대로 행동하지 않는가' 등 모델의 행동이 인간의 의도에 얼마나 부합하는지 측정하는 지표)에서는 역대 Claude 모델 중 가장 좋은 스코어를 기록했다고 합니다.

또한 컴퓨터 조작 시의 프롬프트 인젝션 내성이 Sonnet 4.5보다 대폭 향상되어 Opus 4.6과 동등한 수준에 도달했다는 점도 놓칠 수 없는 부분입니다.

주요 파트너사의 평가

공식 발표에는 다수의 파트너 기업의 코멘트가 게재되었습니다. 엔지니어로서 눈에 띄는 것을 골라보았습니다.

Claude Sonnet 4.6 delivers frontier-level results on complex app builds and bug-fixing. It's becoming our go-to for the kind of deep codebase work that used to require more expensive models.

"이전에는 더 비싼 모델이 필요했던 깊이 있는 코드베이스 작업에서 Sonnet 4.6이 우선순위가 되고 있다"는 코멘트가 인상적입니다.

Claude Sonnet 4.6 produced the best iOS code we've tested for Rakuten AI. Better spec compliance, better architecture, and it reached for modern tooling we didn't ask for, all in one shot. The results genuinely surprised us.

라쿠텐 AI에서는 "테스트한 것 중 최고의 iOS 코드를 생성했다", "사양 준수와 아키텍처 모두 훌륭하며, 요청하지 않았는데도 모던한 도구를 사용했다"는 코멘트를 남겼습니다. 한 번에 고품질 코드를 내놓는 것은 개발 워크플로 효율화와 직결됩니다.

Claude Sonnet 4.6 has perfect design taste when building frontend pages and data reports, and it requires far less hand-holding to get there than anything we've tested before.

"프런트엔드 페이지나 데이터 리포트 구축에서 완벽한 디자인 감각을 가지고 있다"는 평가도 있습니다. UI 생성 품질은 실제로 많은 사용자로부터 독립적으로 보고되고 있는 개선점인 듯합니다.

요약

Claude Sonnet 4.6은 "Sonnet은 가성비 중심의 서브 모델"이라는 인식을 근본적으로 뒤집는 업데이트였습니다.

코딩 능력이 Opus 4.5를 넘어섰고 Opus 4.6에 육박하는 수준
OSWorld 및 문서 이해 분야에서 Opus 4.6과 사실상 동등
100만 토큰 컨텍스트 윈도우 (베타)
Adaptive Thinking 및 Effort 컨트롤 지원
무료 플랜에서도 기본 모델로 사용 가능
이 모든 진화에도 불구하고 요금은 동결

"비싸고 강력한 Opus", "저렴하고 적당한 Sonnet"이라는 구도는 이제 과거의 것일지도 모릅니다. Sonnet 4.6은 "저렴하면서도 아주 강력한" 모델입니다.

API를 통해서는 claude-sonnet-4-6으로 이용할 수 있으며, claude.ai에서는 무료 플랜부터 바로 시도해 볼 수 있습니다. Opus 4.6과의 차이를 직접 확인해 보는 것도 재미있을 것 같네요.

참고 링크

이 기사 공유하기