마이크로소프트(Microsoft)가 OpenAI와의 계약
특정 API 서비스에 의존하다 보면 모델의 업데이트 방향이나 비용 상승을 그대로 받아들여야 하는 제약이 생긴다. 마이크로소프트(Microsoft)는 약 6개월 전 OpenAI와의 계약 내용을 수정해 자체 연구원과 데이터 파이프라인, 커스텀 실리콘을 모두 활용하여 초지능(superintelligence)을 개발할 수 있는 공식적인 권한을 얻었다. 과거 계약에서는 AGI(인공 일반 지능) 연구가 명시적으로 금지되었으며 모델 학습 규모를 나타내는 FLOPS(초당 부동 소수점 연산 수)에도 제한이 걸려 있었다. 이제는 자체 실리콘 기반의 최적화를 통해 독자적인 기술 경로를 확보한 셈이다.
단순히 타사 모델을 구매해 서비스에 붙이는 수준을 넘어 2030년까지 세계 최고의 프런티어 모델을 직접 구축하는 역량을 갖추겠다는 계획이다. 현재 발표한 7개 모델은 기술적 가능성을 확인하는 개념 증명(proof of concept) 단계의 결과물이다. 외부 의존도를 완전히 낮추고 최첨단 모델을 스스로 만들 수 있는 능력을 확보하는 장기적인 전략적 전환을 추진하며 기술적 자립을 꾀하고 있다.
MAI 모델들은 모델 호스팅 및 배포 인프라인 Microsoft Foundry(마이크로소프트 파운드리)를 통해 배포된다. 특히 개발자들이 OpenRouter(오픈라우터), Fireworks(파이어웍스), Baseten(베이스텐) 같은 제3자 플랫폼을 통해 모델 가중치를 직접 튜닝할 수 있게 한 점이 특징이다. 인프라 제공부터 세부 최적화까지 개발자가 직접 제어할 수 있는 환경을 구축해 모델의 실무 적용 가능성을 넓혔다.
마이크로소프트가 자체 개발한 7종의 AI 모델과 에이전트 스택
업무용 메일을 쓰고 코드를 짜기 위해 여러 개의 AI 탭을 오가는 번거로움은 일상이 됐다. 샌프란시스코에서 열린 Build 2026(개발자 컨퍼런스)에서 공개된 내용은 이 파편화된 경험을 하나로 묶는 데 집중한다. 마이크로소프트는 7개의 인하우스(자체 개발) AI 모델과 개인용 에이전트 Scout(스카우트), Microsoft IQ(지능 계층), 개발자용 AI 보안 시스템, Myerana 2(마이에라나 2) 양자 칩 업그레이드를 발표했다. OpenAI 같은 외부 모델 의존도를 낮춰 자체적인 프런티어 경쟁력을 확보하려는 움직임이다.
실무에서 가장 민감한 지점은 성능 대비 비용이다. MAI thinking one(마이 씽킹 원)은 컨설팅 펌 McKinsey(맥킨지)를 위해 튜닝한 결과 GPT 5.5보다 품질이 우수했고 비용 효율성은 약 10배 높았다. 독립 평가 파트너 Serge(서지)의 블라인드 테스트에서는 Claude Sonnet 4.6(클로드 소네트 4.6)보다 선호됐으며, SWEBench Pro(소프트웨어 엔지니어링 벤치마크) 등 코딩 테스트에서는 Claude Opus 4.6(클로드 오퍼스 4.6)과 대등한 성적을 냈다. 특정 도메인 최적화를 통해 비용은 낮추고 성능은 유지하는 실질적 기준을 제시한 셈이다.
텍스트를 넘어 이미지와 음성을 처리하는 도구의 통합 속도도 빨라졌다. MAI image 2.5(마이 이미지 2.5)와 Flash(플래시) 버전은 텍스트-이미지 및 이미지-이미지 생성을 지원하며 PowerPoint(파워포인트)와 OneDrive(원드라이브)에 적용된다. MAI transcribe 1.5(마이 트랜스크라이브 1.5)는 43개 언어의 고정밀 전사를, MAI voice 2(마이 보이스 2)는 15개 이상의 추가 언어와 새로운 음성 옵션을 제공한다. 모델의 종류를 늘려 멀티모달(다중 양식) 처리 범위를 확장했다.
마이크로소프트가 자체 개발한 7종의 AI 모델 제품군인
거대 기업이 외부의 최강 모델만 빌려 쓰면 충분하다는 생각은 이제 틀렸다. 마이크로소프트 AI 초지능 팀(AI Superintelligence Team, 내부 AI 개발 전담 조직)이 전적으로 자체 개발한 7종의 AI 모델 제품군인 'MAI' 시리즈를 발표했다. 이 포트폴리오는 추론과 코드 생성, 이미지 생성뿐 아니라 전사(transcription, 음성을 텍스트로 변환하는 기술)와 음성 합성 기능까지 모두 포함하는 멀티모달(multimodal, 다양한 형태의 데이터를 동시에 처리하는 기술) 구성이다. 외부 협력 없이 내부 역량만으로 완성한 가장 야심 찬 1자(first-party) AI 릴리스다.
외부 모델을 임대해 서비스하는 기존 방식에서 벗어나 애저(Azure, 마이크로소프트 클라우드 플랫폼) 내에서 지능을 직접 구축하고 제어하는 전략으로 방향을 틀었다. OpenAI나 Anthropic 같은 외부 제공업체에 지불하는 비용을 줄여 마진을 높이기 위해 전체 기술 스택을 직접 제어하려는 의도다. 지능을 직접 구축하고 호스팅하며 판매와 최적화 단계까지 모두 내부에서 처리해 경제적 주도권을 확보한다.
외부 모델을 사용할 때마다 비용의 일부가 외부 제공업체로 흘러가는 구조를 끊어내겠다는 계산이다. 자체 모델을 애저 위에서 구동하면 비용 절감과 더불어 성능 최적화의 전권을 쥐게 된다. 이를 통해 개발자에게 더 저렴한 도구를 제공하면서도 수익성을 극대화하는 경제적 통제권을 갖추는 것이 목표다.
마이크로소프트의 첫 자체 추론 모델인 MAI thinking
성능을 높이려면 거대 모델의 결과물을 다시 학습시키는 증류(Distillation, 기존 모델의 지식을 작은 모델로 전이하는 기법) 과정이 필수적이라는 통념이 있다. 마이크로소프트는 제3자 시스템의 증류 없이 상업적으로 라이선스된 깨끗한 데이터만으로 처음부터 학습시킨 첫 자체 추론 모델 MAI thinking one을 공개했다. 이 모델은 350억 개의 활성 파라미터를 보유한 중간 크기의 추론 모델로 설계됐다. 한 번에 처리할 수 있는 정보의 양을 결정하는 컨텍스트 윈도우(Context Window)는 128,000 또는 256,000 토큰으로 설명된다. 타사 모델의 결과물을 재가공하는 방식이 아니라 상용 데이터를 통해 독자적인 추론 능력을 구현한 사례다.
기업의 실무 배포 환경을 고려해 모델의 용도를 세분화한 MAI 제품군도 함께 구성했다. 개발 도구인 GitHub Copilot과 VS Code(Visual Studio Code)를 위해 특별히 구축된 경량 코딩 모델 MAI-Code-1-Flash가 대표적이다. 여기에 텍스트-이미지 생성과 이미지 편집을 모두 지원하는 MAI-Image-2.5와 43개 언어를 가로질러 작동하는 MAI-Transcribe-1.5가 포함된다. 다국어 음성 생성 시스템인 MAI-Voice-2까지 더해지며 텍스트, 코드, 이미지, 음성을 아우르는 멀티모달(Multimodal, 여러 형태의 데이터를 동시에 처리하는 기술) 체계를 갖췄다. 각 기업이 필요로 하는 특정 도메인에 맞춰 최적화된 모델을 즉각 투입할 수 있는 구성이다.
한국 AI 현장에서 볼 지점
타사 모델의 결과물을 다시 학습시켜 비용을 낮추는 증류(distillation) 방식이 업계의 일반적인 효율화 경로로 자리 잡았다. 하지만 마이크로소프트는 정반대의 경로를 택해 데이터의 독립성과 법적 안전성을 동시에 확보하는 방향으로 움직였다.
MAI-Thinking-1은 350억 개의 활성 파라미터를 가진 추론 모델로, 타사 프런티어 모델의 출력을 빌리지 않고 스크래치부터 학습되었다. 상업적 라이선스가 부여된 깨끗한 데이터만을 사용해 처음부터 구축한 결과다. 경쟁사 시스템의 출력을 사용해 저렴한 대안 모델을 만드는 일반적인 관행을 따르지 않고, 학습 데이터의 순도를 높여 모델의 신뢰성을 확보하는 방식을 택했다. 이는 모델의 추론 능력을 외부 의존성 없이 독자적으로 구현했다는 점에 방점이 있다.
텍스트 설명을 소스 코드로 변환하는 코딩 모델 MAI code 1 Flash는 GitHub, Copilot, Visual Studio Code에 직접 배포되어 개발 도구에 통합된다. 마이크로소프트는 고성능 추론 모델과 더불어 속도와 효율성에 최적화된 Flash 버전을 함께 제공하는 전략을 취하고 있다. 개발자는 작업의 성격에 따라 정밀한 추론이 필요한 복잡한 설계와 빠른 코드 생성이 필요한 단순 구현 중 최적의 도구를 즉시 선택해 사용할 수 있다.
특정 API 의존도가 높아지며 발생하는 벤더 록인과 비용 부담은 기업의 상시적 리스크가 됐다. 마이크로소프트는 OpenAI와의 계약에서 AGI 연구 금지와 모델 크기 제한을 제거하며 이 제약을 정면으로 돌파했다. 증류 없이 상용 라이선스 데이터로만 학습한 MAI-Thinking-1은 그 결과물이다. 특정 도메인 튜닝 시 GPT 5.4급 성능을 유지하며 비용을 10분의 1로 낮추는 실무적 기준이 마련됐다. 결국 AI 경쟁력은 외부 모델의 성능이 아니라 비용과 최적화를 직접 제어하는 통제권에서 갈린다.




