100만 토큰의 컨텍스트 창을 지원하는 네이티브 멀티모달 모델
수만 줄의 소스 코드나 수백 페이지의 기술 문서를 분석할 때, 모델이 앞선 맥락을 기억하지 못해 데이터를 강제로 나누어 입력해야 하는 상황은 분석 효율을 저해하는 고질적인 문제다. MiniMax는 이러한 컨텍스트 제한 문제를 해결하기 위해 100만 토큰의 방대한 컨텍스트 창을 지원하는 네이티브 멀티모달 모델 MiniMax-M3를 공개했다.
MiniMax-M3는 텍스트와 이미지, 비디오를 동시에 처리하는 능력을 갖췄다. 학습 첫 단계부터 텍스트, 이미지, 비디오 데이터를 혼합하여 학습시키는 네이티브 멀티모달 설계를 적용했다. 이를 통해 서로 다른 데이터 형태 간의 의미론적 융합을 깊게 구현하여 멀티모달 데이터의 통합 처리 능력을 확보했다.
추론 방식은 사용자의 목적에 따라 두 가지 모드로 선택 가능하다. 복잡한 추론이나 에이전트 작업, 장기적인 협업이 필요한 경우에는 thinking 모드를 사용해 추론의 정밀도를 높인다. 반면 채팅이나 코드 완성처럼 빠른 응답 속도와 낮은 지연 시간이 필수적인 상황에서는 non-thinking 모드를 활용해 응답 시간을 단축한다.
초거대 컨텍스트 처리를 위해 기존 GQA보다 연산량과 메모리
수만 줄의 코드베이스를 한 번에 분석해야 하는 개발자에게 토큰당 계산 비용의 급감은 실질적인 운영비 절감으로 이어진다. MiniMax-M3는 100만 토큰의 초거대 컨텍스트를 효율적으로 처리하기 위해 MiniMax Sparse Attention(MSA, 데이터 중요도에 따라 일부에만 집중하는 희소 어텐션 연산자)을 도입했다. 이는 쿼리를 그룹화해 메모리 사용량을 줄이는 기존 GQA(Grouped Query Attention) 방식과 비교해 어텐션 연산량과 메모리 점유율을 대폭 낮춘 구조다. 모델의 품질을 유지하면서도 연산 효율을 극대화해 초거대 컨텍스트 처리의 진입 장벽을 낮췄다.
이전 버전인 M2와 비교하면 100만 토큰 환경에서의 처리 성능이 크게 개선되었다. 입력 데이터를 처음 처리하는 단계인 프리필(Prefill) 속도는 9배 향상되었으며, 토큰을 하나씩 생성하는 디코드(Decode) 속도는 15배 빨라졌다. 이러한 속도 향상은 하드웨어 자원 소모를 줄여 전체적인 추론 효율을 높이는 결과로 이어졌다. 결과적으로 토큰당 계산 비용을 M2 대비 20분의 1 수준으로 줄이는 성과를 냈다.
수만 줄의 코드나 긴 영상 분석과 같은 고부하 작업에서 지연 시간과 비용이 얼마나 실질적으로 감소했는지가 모델 선택의 기준이 된다. MSA는 초거대 컨텍스트 처리 시 발생하는 메모리 병목과 연산 부하를 해결해 실제 운영 비용을 낮췄다. 이는 대규모 데이터 처리 환경에서 연산 효율성이 비용 절감으로 직결됨을 수치로 증명한 결과다.
확인해야 할 핵심 지점
모델의 성능을 높이려면 더 많은 파라미터를 동시에 연산해야 한다는 것이 일반적인 상식이다. MiniMax-M3는 이 관점을 뒤집어 전체 파라미터 약 4280억 개 중 추론 시 약 230억 개만 활성화하는 효율적 구조를 채택했다. 전체 파라미터 수는 약 4280억 개에 달하지만 실제 연산에 투입되는 자원은 약 230억 개 수준으로 유지하는 방식이다. 이는 모델의 전체 지식 용량은 그대로 유지하면서 추론 속도를 높이기 위해 연산 자원을 최적화한 결과다.
실제 모델을 배포하고 운영하는 서빙 단계에서는 SGLang(고성능 LLM 서빙 프레임워크), vLLM(처리량을 극대화한 추론 엔진), Transformers(허깅페이스의 표준 모델 라이브러리) 사용이 권장된다. 세 가지 프레임워크는 각각의 특성에 맞춰 모델의 추론 효율과 처리량을 극대화하는 기능을 제공한다. 사용자는 운영 목적에 맞는 프레임워크를 선택해 서빙 환경을 구축함으로써 모델의 잠재 성능을 최대한으로 끌어낼 수 있다.
최적의 성능을 이끌어내기 위한 구체적인 추론 파라미터 설정값은 다음과 같다.
{ "temperature": 1.0, "top_p": 0.95, "top_k": 40 }
temperature 1.0, top_p 0.95, top_k 40 설정을 적용했을 때 모델의 성능이 최적화된다. 권장 프레임워크와 파라미터 설정을 조합해 실제 추론 환경에서 발생하는 지연 시간과 자원 소모량을 측정하는 것이 성능 판단의 실질적인 기준이 된다.
100만 토큰의 컨텍스트 창을 처리하는 효율은 이제 모델의 체급이 아닌 연산 구조의 최적화 문제로 옮겨갔다. MiniMax-M3는 4280억 개의 파라미터 중 230억 개만 활성화하는 구조와 MSA 연산자를 통해 토큰당 계산 비용을 20분의 1로 절감했다.
수만 줄의 코드나 긴 영상 분석 시 발생하는 지연 시간과 비용의 실질적 감소 여부가 도입의 핵심 지표가 된다. 권장 프레임워크와 파라미터 설정을 조합해 실제 추론 환경의 자원 소모량을 직접 측정하며 성능을 검증해야 한다.



