발표에서 확인된 핵심 사실
고성능 모델의 비싼 API 비용은 기업의 도입을 망설이게 하는 가장 큰 장벽이다. 중국 AI 스타트업 MiniMax가 출시한 M3는 미국 주요 폐쇄형 모델 비용의 8~20% 수준으로 가격을 낮췄다. 100만 토큰의 컨텍스트 윈도우(한 번에 처리 가능한 데이터 양)와 네이티브 멀티모달리티를 지원한다. 새로운 구독 토큰 플랜은 월 20달러부터 시작한다. 고성능 모델의 진입 장벽이 가격 경쟁으로 무너지고 있다.
컴퓨터가 스스로 도구를 사용하는 에이전트 기능이 구체화됐다. OpenAI의 GPT-5.5는 에이전트 기반의 컴퓨터 사용에 최적화되어 설계되었다. 최소한의 인간 지시만으로 코드 작성, 디버깅, 웹 브라우징, 스프레드시트 작성 등 복잡한 다단계 작업을 수행한다. Terminal-Bench 2.0(명령줄 워크플로우 테스트)에서 82.7%를 기록하며 Claude Opus 4.7의 69.4%와 Gemini 3.1 Pro의 68.5%를 앞섰다. 단순한 채팅을 넘어 자율적인 작업 수행으로 기능이 확장됐다.
모델의 진화 방향은 효율과 보안으로 나뉜다. GPT-5.5는 GPT-5.4와 동일한 토큰당 지연 시간을 유지하며 성능을 개선했다. Codex 작업 시 토큰 사용량을 줄였으며 xhigh 추론을 지원한다. 중요 인프라 방어 조직은 엄격한 보안 요구 사항을 충족할 경우 GPT-5.4-Cyber 모델에 접근해 내부 시스템 보안에 활용할 수 있다. 성능 개선과 동시에 특정 목적의 보안 모델로 운영 체계를 분리했다.
시장 사용량과 측정 지표도 구체적인 수치로 나타난다. OpenRouter(AI 모델 API 통합 플랫폼)의 최근 30일 활동량은 1.85T 토큰이다. Artificial Analysis Intelligence Index v4.0는 GDPval-AA, 𝜏²-Bench Telecom, SciCode, GPQA Diamond, CritPt 등 전문 벤치마크로 모델 지능을 측정한다. 모델의 지능 측정과 실제 사용량이 정밀한 수치로 기록되고 있다.
기존 방식과 달라진 지점
단순히 정답을 묻던 화면에서 이제는 AI가 직접 마우스를 움직이고 코드를 짜는 단계로 넘어왔다. GPT-5.5는 에이전트 기반 코딩, 컴퓨터 사용, 전문 지식 작업, 도구 사용 및 초기 과학 연구를 위해 설계된 프런티어 모델이다. 단순한 원시 지능의 향상보다 실세계에서 자율적으로 여러 단계를 수행하는 능력에 집중했다. 모델의 지향점이 답변 생성에서 과업 수행으로 바뀌었다.
GDPval은 44개 직업군에 걸쳐 잘 정의된 지식 업무를 수행하는 에이전트의 능력을 테스트하는 지표다. GPT-5.5는 해당 테스트에서 84.9%의 성적을 거두었다. 이전 버전인 GPT-5.4보다 Expert-SWE(전문 소프트웨어 엔지니어링 벤치마크) 테스트에서도 더 높은 성능을 보였다. 단순한 지능의 크기보다 실제 업무 완수 능력을 높이는 데 주력했다.
1M(100만) 토큰의 컨텍스트 윈도우를 지원한다. Responses API와 Chat Completions API를 통해 제공된다. 대규모 데이터를 한 번에 처리하며 자율적인 다단계 작업을 수행할 수 있는 기반을 갖췄다.
고정밀도 모델인 GPT-5.5 Pro의 API 가격은 입력 토큰 100만 개당 30달러, 출력 토큰 100만 개당 180달러다. 토큰당 가격은 캐시 히트, 입력, 출력 토큰 가격을 7:2:1 비율로 혼합해 계산한다. 캐시 히트 가격은 별도로 표시하며 캐시 쓰기와 저장 비용은 제공업체마다 다르다. 사용량과 캐시 효율에 따라 실제 비용이 결정되는 구조다.
GPT-5.5와 MiniMax의 MiniMax M2.5 모델
모델을 선택할 때 가장 먼저 확인하는 것은 벤치마크 수치와 API 가격표다. OpenRouter는 OpenAI의 GPT-5.5와 MiniMax M2.5의 벤치마크, 가격, 컨텍스트 길이 등 주요 지표를 비교해 제공한다. GPT-5.5는 계획 수립과 도구 사용, 메모리 관리가 필요한 에이전트 작업에 최적화됐다. 인간의 개입 없이 자율적으로 순차적 의사결정을 내리는 OpenAI의 가장 유능한 에이전트 모델이다. OpenAI는 이러한 에이전트 방식의 작업 수행이 대부분의 사용자가 실제로 필요로 하는 기능이라고 판단했다.
입력 데이터의 성격에 따라 모델의 활용도는 갈린다. GPT-5.5는 이미지 처리를 지원하지만 MiniMax M2.7은 이를 지원하지 않는다. 반면 M3는 설계 단계부터 100조 개 이상의 토큰을 학습한 네이티브 멀티모달 시스템이다. 텍스트와 이미지가 섞인 시퀀스를 학습해 프로그래밍 차트나 좌표 지도 같은 복잡한 시각적 기하학 구조를 문맥 손실 없이 구조적 코드로 변환한다. 대량의 데이터 추론이 필요한 RAG(Retrieval Augmented Generation, 외부 지식 검색 기반 생성) 워크플로우에서는 입력과 출력 토큰의 합계인 컨텍스트 윈도우 크기가 효율성을 결정한다. 보통 출력 토큰은 모델별로 훨씬 더 낮은 제한을 가진다.
모델의 배포 방식은 기업의 도입 비용을 결정한다. MiniMax-M3는 10일 이내에 오픈 웨이트(open weights) 라이선스로 공개될 예정이다. 기업 사용자는 모델을 무료로 다운로드하고 기업 환경에 맞게 맞춤 설정할 수 있다. 고성능 폐쇄형 API와 저비용 오픈 모델 사이의 기존 선택 기준을 바꾸려는 시도다.
최신 모델 GPT-5.5를 출시했다
연구실의 프로토타입이 상용 서비스로 전환되는 주기가 극도로 짧아졌다. OpenAI는 GPT-4.5 이후 처음으로 베이스 모델을 완전히 재학습한 GPT-5.5를 출시했다. 이 모델은 현재까지 OpenAI가 내놓은 가장 유능한 모델이다.
연산 효율은 아키텍처의 변화로 해결했다. M3 모델은 KV 행렬을 정밀한 블록으로 분할하는 MiniMax Sparse Attention(MSA) 기술을 도입했다. 트랜스포머의 이차 복잡도($O(N^2)$) 문제를 해결해 100만 토큰 처리 시 연산 수요를 이전 세대의 20분의 1로 낮췄다. 프리필링 단계에서는 9배, 디코딩 단계에서는 15배의 속도 향상을 기록했다. 추론 모델의 첫 번째 토큰 생성 시간(Time to First Token)에는 모델의 생각 시간이 포함된다.
Claude Opus 4.8 (Adaptive Reasoning, Max Effort) 모델이 Artificial Analysis Intelligence Index에서 가장 높은 점수로 선두를 지킨다. 초복잡 추론 영역은 Opus 4.8이 우위에 있다. 반면 M3는 폐쇄형 API의 고비용 없이 1티어 수준의 자동화 운영 능력을 제공한다. 기업은 극도의 추론 성능과 비용 효율적 자동화 사이에서 모델을 선택하게 된다.
OpenAI는 작년 GPT-5.2에 사이버 보안 전용 안전장치를 처음 도입했다. 이번에 'Trusted Access for Cyber'를 통해 Codex부터 사이버 허용 모델의 접근권을 확대한다. 신뢰 신호를 충족한 사용자는 GPT-5.5의 고급 사이버 보안 기능에 더 적은 제한으로 접근할 수 있다.
한국 AI 현장에서 볼 지점
성능이 높다고 모든 작업에 유리한 것은 아니다. OpenAI가 복잡한 다단계 에이전트 작업(agentic tasks)에 최적화한 GPT 5.5를 공개했다. 이 모델은 여러 단계로 이루어진 에이전트 기반 작업 수행에 최적화되어 구축됐다. 더 높은 정확도가 요구되는 고난도 작업 전용인 GPT-5.5 Pro 버전도 함께 출시했다. 모델 설계 방향이 단순 응답에서 자율 과업 수행으로 옮겨갔다.
실제 벤치마크 결과는 모델별 강점이 뚜렷하다. M3는 SWE-Bench Pro에서 59.0%를 기록하며 GPT-5.5와 Gemini 3.1 Pro를 앞섰다. 자율 브라우징을 측정하는 BrowseComp에서는 83.5%를 기록해 Claude Opus 4.7의 79.3%보다 높은 점수를 냈다. 다만 순수 코드 수정 영역인 SWE-Bench Pro에서는 Claude Opus 4.8이 69.2%를 기록하며 M3보다 우위를 점했다. 벤치마크 항목에 따라 우위 모델이 달라진다.
인프라 효율과 접근 방식에서도 차이가 난다. GPT-5.5는 API 기준 1M, Codex 기준 400K의 컨텍스트 윈도우를 가지며 MiniMax M2.7은 204.8K 토큰을 지원한다. MoE(Mixture of Experts, 라우팅 메커니즘으로 일부 전문가만 선택하는 구조) 모델은 라우팅을 통해 일부 전문가만 선택하므로 활성 파라미터가 전체보다 적다. 반면 Dense 모델은 모든 파라미터를 사용하므로 활성 파라미터와 전체 파라미터 수가 동일하다. 사용자는 OpenRouter API(수백 개의 모델에 접근 가능한 통합 인터페이스)를 통해 GPT-5.5와 MiniMax M2.5를 포함한 수백 개의 모델을 이용할 수 있다.
고성능 모델의 API 비용 부담은 기업의 도입을 가로막는 실질적 장벽이다. MiniMax-M3는 미국 주요 폐쇄형 모델 대비 8~20%의 비용만으로 동등하거나 더 높은 성능을 기록했다. KV 행렬을 정밀 블록으로 분할하는 MSA 구조로 100만 토큰 처리 시 연산 수요를 20분의 1로 낮춘 결과다.
이제 기업은 초고성능 추론이 필요한 영역에 Claude Opus 4.8를, 비용 효율적 자동화에는 M3를 배치하는 선택지를 갖는다. 모델의 절대적 지능보다 작업 단위의 비용 효율이 도입의 결정적 기준이 된다.




