032026 · JuneModel Analysis

Claude Fable 5 등장 —
하네스는 어떻게 달라지나

2026년 6월 9일, Anthropic이 가장 강력한 공개 모델 Claude Fable 5를 출시했습니다. SWE-Bench Pro 80.3%, FrontierCode Diamond 29.3%. GPT-5.5와 Gemini 3.1 Pro를 압도하는 수치입니다. 그런데 이 숫자가 에이전트 하네스 설계에 무엇을 의미하는지는 아직 아무도 정확히 말하지 않았습니다.

80.3%

SWE-Bench Pro

GPT-5.5는 58.6%, Gemini 3.1 Pro는 54.2%. Fable 5는 실제 GitHub 이슈 해결 벤치마크에서 경쟁 모델을 20포인트 이상 앞질렀습니다.

vs GPT-5.5 58.6% · vs Gemini 54.2%

29.3%

FrontierCode Diamond

최상위 난이도 코딩 벤치마크. GPT-5.5가 5.7%에 그친 것과 달리 Fable 5는 다섯 배 이상의 격차를 벌렸습니다.

vs GPT-5.5 5.7% · 5× gap

95.0%

SWE-Bench Verified

Opus 4.8의 88.6%, Claude Mythos Preview의 93.9%를 넘어섰습니다. 단일 세대 내 6.4포인트 도약은 이례적입니다.

vs Opus 4.8 88.6%

90%

Hex Analytics Benchmark

서드파티 데이터 분석 벤치마크에서 90%를 기록한 최초의 AI 모델. Opus 4.8 대비 10포인트 상승이며 유일하게 독립 기관 수치입니다.

First AI · +10pt over Opus 4.8

수치만 보면 명확합니다. Fable 5는 코딩 에이전트 벤치마크를 새로 썼습니다. API ID는 `claude-fable-5`, 컨텍스트 윈도우 1M 토큰, 최대 출력 128k 토큰, 가격은 입력 $10/출력 $50 per MTok — Opus 4.8 바로 위 티어에 위치합니다. Anthropic이 "Opus 위의 새로운 레이어"라고 설명한 만큼, 이전까지 최상위였던 Opus가 이제 중간 포지션이 됩니다.

실제 사례도 있습니다. Stripe는 Fable 5를 활용해 5천만 줄 Ruby 코드베이스를 하루 만에 마이그레이션했습니다. 엔지니어링 팀이 작업했다면 두 달 이상 걸렸을 작업입니다. 단순 코드 생성이 아니라 대규모 코드베이스 이해, 의존성 분석, 점진적 마이그레이션 계획 실행을 Fable 5가 오케스트레이션했다는 의미입니다.

벤치마크 수치를 그대로 믿어도 될까

여기서 중요한 반론이 있습니다. arxiv 프리프린트(SWE-ABS, 2026.02)는 SWE-Bench Verified의 심각한 인플레이션 문제를 지적합니다. 상위 30개 에이전트의 패치를 적대적 테스트로 검증한 결과, 약 5건 중 1건은 의미상 잘못된 패치였습니다. 1위 에이전트의 점수는 78.8%에서 62.2%로 하락하며 순위도 5위로 밀렸습니다.

Fable 5의 95.0% 역시 Anthropic 자체 테스트 결과입니다. 독립 기관의 재현 검증은 아직 나오지 않았습니다. 유일하게 서드파티 수치인 Hex Analytics 90%가 오히려 더 신뢰할 만한 데이터 포인트일 수 있습니다. 즉, 수치의 방향성은 맞지만 절대값은 과장됐을 가능성이 있다는 점을 감안해야 합니다.

하네스 설계에 미치는 실질적 영향

오케스트레이터 모델 업그레이드

S-Skills 하네스에서 Tech Lead(오케스트레이터)에 Fable 5를 투입하면 서브에이전트 태스크 분해 품질이 상승합니다. 컨텍스트 1M 토큰은 대형 코드베이스 전체를 한 번에 보며 설계 결정을 내릴 수 있다는 뜻입니다. 단, $50/MTok 출력 비용은 실질적 제약입니다.

Tech Lead · Orchestrator

워커 모델은 분리 유지

General AgentBench에서 Claude Sonnet 4.5가 48.0점으로 범용 에이전트 최상위를 기록했습니다. 일반화 성능 저하도 0.2%에 불과합니다. 반복 실행이 많은 워커 레이어는 Sonnet 4.5나 Haiku 4.5를 유지하고, Fable 5는 판단이 필요한 결정 지점에만 투입하는 라우팅이 경제적입니다.

Worker · Haiku / Sonnet

MCP 생태계가 임계점

2025 AI Agent Index에 따르면 배포된 에이전트 시스템 30개 중 20개가 MCP를 지원합니다. 도구 통합 표준이 수렴되고 있다는 신호입니다. Fable 5 투입보다 MCP 기반 툴링 구조를 먼저 정립하는 것이 하네스 확장성에 더 근본적 영향을 줍니다.

MCP · 20/30 systems

결론적으로 하네스의 설계 철학은 바뀌지 않습니다. 오케스트레이터는 강하게, 워커는 저렴하게, 컨텍스트는 구조적으로 — 이 원칙은 Fable 5가 나와도 유효합니다. 바뀌는 것은 오케스트레이터 자리에 앉힐 수 있는 모델의 역량 상한선이 올라갔다는 점입니다. 하네스를 잘 설계해뒀다면, 오케스트레이터 모델 ID 한 줄만 바꾸면 됩니다.

Stripe 사례처럼 대형 코드베이스 마이그레이션, 장기 멀티턴 에이전트 루프, 복잡한 추론이 필요한 PM/아키텍트 역할 — 이 세 곳이 Fable 5가 즉각적인 ROI를 만들어낼 포인트입니다. 반면 반복적 코드 생성, 단순 QA 체크, 문서 요약은 여전히 하위 모델이 더 합리적입니다.

S-Skills 하네스는 이미 모델 라우팅 구조를 내장하고 있습니다. Tech Lead에 Fable 5를 연결하는 순간, 하네스 전체가 업그레이드됩니다.

S-SKILLS 시작하기 →

Claude Fable 5 등장 —하네스는 어떻게 달라지나

벤치마크 수치를 그대로 믿어도 될까

하네스 설계에 미치는 실질적 영향

Claude Fable 5 등장 —
하네스는 어떻게 달라지나