GPT-5.5 공개, 맥락 이해가 바꾼 챗GPT의 진짜 실력은?

“버전 하나 올렸을 뿐인데, 같은 코딩 과제를 훨씬 적은 토큰으로 끝낸다”는 평가가 나왔습니다. OpenAI가 새로 내놓은 모델에 관한 이야기입니다.

이번 업그레이드의 진짜 변화가 어디서 왔는지, 벤치마크 수치와 가격 조건은 어떤지 아래에서 하나씩 풀어 드립니다. 실제로 무엇이 달라졌는지는 조금 더 아래로 내리시면 확인하실 수 있습니다.

Table of Contents

무슨 일이 벌어졌나, OpenAI의 기습 공개

OpenAI가 현지시간 4월 23일 GPT-5.5를 공개했습니다. 이전 모델인 GPT-5.4가 나온 지 몇 주 만의 기습 공개라는 평가입니다.

회사는 이번 모델을 두고 “지금까지 가장 똑똑하고 가장 직관적으로 쓰이는 모델”이라고 설명했습니다. 핵심은 단순한 성능 상승이 아니라 ‘맥락 이해’ 방식 자체를 손봤다는 점입니다.

먼저 눈에 띄는 건 서비스 반영 속도입니다. 발표 당일부터 ChatGPT와 Codex 환경에 차례대로 적용되기 시작했다는 것이 OpenAI의 설명입니다.

API 공개는 함께 시작되지 않았습니다. “다른 안전장치가 필요하다”는 이유로 일정이 뒤로 밀렸고, 곧 Responses와 Chat Completions API에 탑재될 예정이라는 공지입니다.

왜 지금 중요한가, ‘AI 슈퍼앱’ 경쟁의 축

배경을 보면 이해가 쉽습니다. Anthropic과 Google이 프런티어급 모델을 연달아 내놓고 있고, OpenAI는 같은 모델 계열 안에서 소수점 단위 업데이트로 응수하는 흐름입니다.

주요 외신은 이번 공개를 두고 “OpenAI가 AI 슈퍼앱에 한 발 더 가까워졌다”고 평가했습니다. 단일 대화창에서 코딩, 리서치, 업무 자동화까지 묶어내려는 구상이라는 분석입니다.

경쟁 모델과 비교해 가장 도드라진 건 코딩 영역 성적입니다. 특히 에이전트형 코딩, 즉 스스로 계획을 세우고 도구를 돌리며 과제를 완수하는 작업에서 우위를 주장했습니다.

보도 내용을 종합하면 이 경쟁 구도에서 OpenAI가 택한 전략은 ‘더 비싸지만 더 효율적인 모델’입니다. 토큰당 가격은 올렸지만, 같은 과제를 더 적은 토큰으로 마무리해 총비용을 낮출 수 있다는 주장입니다.

벤치마크 수치, 얼마나 똑똑해졌나

OpenAI가 공개한 자료에 따르면 GPT-5.5는 공유된 10개 벤치마크 중 9개에서 GPT-5.4보다 점수가 올랐습니다. 상승폭이 큰 항목은 다음과 같다는 설명입니다.

벤치마크	내용	GPT-5.4 대비 변화
ARC-AGI-2	추론·추상화 평가	+11.7pp
MCP Atlas	도구 사용·에이전트 평가	+8.1pp
Terminal-Bench 2.0	터미널 환경 복합 작업	+7.6pp

Terminal-Bench 2.0은 명령어를 이어가며 계획·반복·도구 조정 능력을 보는 시험대입니다. GPT-5.5는 이 항목에서 82.7%를 기록해 최고 성적을 주장했다는 보도입니다.

같은 항목에서 Claude Opus 4.7은 69.4%, Gemini 3.1 Pro는 68.5%로 집계됐다는 수치가 제시됐습니다. 업계에서 “격차가 벌어졌다”는 반응이 나오는 이유입니다.

실제 깃허브 이슈 해결을 평가하는 SWE-Bench Pro에서는 58.6%를 기록해, 단일 시도에서 더 많은 과제를 마무리했다고 설명됐습니다. 내부 평가인 Expert-SWE에서도 GPT-5.4를 앞섰다는 주장입니다.

달라진 맥락 이해, 엔지니어에게 무엇이 좋아졌나

GPT-5.5의 핵심 마케팅 포인트는 ‘더 긴 맥락을 더 잘 읽는다’입니다. 긴 코드베이스 전체를 놓치지 않고 추적한다는 의미입니다.

초기 테스트에서는 이런 행동이 두드러졌다는 설명입니다. 첫째, 큰 시스템 전반의 맥락을 유지한 채 작업을 이어가는 능력입니다.

둘째, 원인이 모호한 실패 상황에서도 가설을 세우고 도구로 검증하는 흐름이 늘었다는 평가입니다. 셋째, 변경사항을 주변 코드까지 일관되게 반영해, 수정 후 사이드이펙트를 줄였다는 보고가 있습니다.

긴 컨텍스트 성능 자체도 수치로 확인됐습니다. Graphwalks BFS 평가에서 128K 토큰 구간에 들어가자 GPT-5.4 점수는 21.4%까지 떨어졌습니다.

반면 GPT-5.5는 256K 구간에서 73.7%, 1M 구간에서 45.4%를 기록했다는 설명입니다. 1M이라는 대형 컨텍스트 창을 실전에서도 어느 정도 살릴 수 있게 됐다는 해석이 나옵니다.

컴퓨터 조작, 이른바 ‘Computer Use’ 능력도 함께 개선됐다는 것이 OpenAI 입장입니다. 사용자의 의도를 더 잘 파악해, 같은 난이도 작업에서 처리 속도가 빨라졌다는 주장입니다.

문서 작성처럼 시간이 드는 과제에서 지연이 줄었다는 점도 강조됐습니다. “정돈되지 않은 업무 요청을 실행 가능한 계획으로 바꿔 준다”는 설명도 나왔습니다.

가격 정책, 더 비싸졌지만 더 효율적이라는 주장

가격은 눈여겨볼 대목입니다. API 기준으로 입력 100만 토큰당 5달러, 출력 100만 토큰당 30달러가 책정된 것으로 알려졌습니다.

GPT-5.4가 입력 2.5달러, 출력 15달러였던 것과 비교하면 정확히 두 배 수준입니다. 일각에서 “새로운 지능 등급을 내세우며 가격을 두 배로 올렸다”는 평가가 나온 이유입니다.

고급 버전인 GPT-5.5 Pro는 입력 30달러, 출력 180달러로 훨씬 비쌉니다. 대신 Batch와 Flex 요금제는 기본 API 요금의 절반 수준이라는 안내가 있습니다.

다만 OpenAI는 ‘총비용’으로 보면 얘기가 다르다는 입장입니다. 같은 Codex 과제를 GPT-5.4보다 훨씬 적은 토큰으로 마무리해, 실제 청구액은 기대만큼 오르지 않는다는 논리입니다.

Artificial Analysis의 코딩 인덱스에서 “경쟁 프런티어 코딩 모델의 절반 비용으로 최고 수준의 지능을 낸다”는 결과가 인용됐습니다. 가격을 받는 대신 효율로 보상한다는 전략으로 읽힙니다.

누가 쓸 수 있나, 요금제별 개방 범위

이번 업그레이드는 요금제별로 접근 범위가 다릅니다. 정리하면 다음과 같습니다.

요금제	GPT-5.5 기본	GPT-5.5 Pro
ChatGPT Plus	가능	불가
ChatGPT Pro	가능	가능
Business	가능	가능
Enterprise	가능	가능

Plus 요금제 사용자는 기본 GPT-5.5까지만 이용 가능한 것으로 알려졌습니다. Pro 등급부터 더 강력한 GPT-5.5 Pro를 함께 쓸 수 있다는 구성입니다.

참고로 ChatGPT Plus는 월 20달러, Pro는 월 200달러가 기본 요금으로 공지된 상태입니다. Business는 월 25달러 또는 연간 청구 시 20달러 수준이고, Enterprise는 영업 문의가 필요한 체계라는 설명입니다.

Codex 환경에서도 동일한 등급 조건이 적용된다는 보도입니다. 즉 코딩 에이전트 환경에서 GPT-5.5를 쓰려면 최소 Plus 이상이 필요한 셈입니다.

앞으로의 전망, 프런티어 경쟁은 어디로

정리하면 이번 업그레이드의 무게중심은 ‘맥락 이해 + 토큰 효율’입니다. 모델을 더 똑똑하게 만들면서도 총 사용량을 줄이는, 상업적으로 현실적인 방향이라는 평가입니다.

API 정식 개방 일정은 “매우 곧”이라는 표현 수준에서 예고됐다고 합니다. NVIDIA 인프라 위에서 Codex를 구동하고 있다는 발표도 함께 나와, 대규모 에이전트 서비스 확장이 이어질 가능성이 높다는 분석입니다.

경쟁 구도 측면에서도 의미가 적지 않습니다. Terminal-Bench 2.0과 SWE-Bench Pro 같은 에이전트 핵심 벤치마크에서 OpenAI가 다시 1위권을 주장하면서, 연쇄적인 업데이트 경쟁이 이어질 것이라는 전망입니다.

사용자 입장에서는 선택지가 세 갈래로 정리되는 모습입니다. 첫째, 가볍고 저렴한 대화용 모델. 둘째, 장시간 코딩·리서치를 맡기는 GPT-5.5 기본형. 셋째, 프런티어 성능이 필요한 GPT-5.5 Pro입니다.

AI가 단순 질의응답을 넘어 ‘작업을 맡기는 도구’로 옮겨가는 흐름이 뚜렷해지고 있습니다. 이번 GPT-5.5는 그 전환을 더 빠르게 만들 카드가 될 것으로 보인다는 평가가 지배적입니다.