마이크로소프트가 에이전트의 컨텍스트 제공을 위한 'IQ'

코파일럿을 쓰면서 우리 회사 내부 문서나 최신 웹 정보를 정확히 가져오지 못해 답답했던 적이 있을까? 마이크로소프트는 에이전트가 상황에 맞는 정보를 정확히 찾도록 돕는 IQ 시리즈를 발표했다. 정해진 형식이 없는 문서나 메모 같은 비정형 지식을 다루는 Foundry IQ, 표나 데이터베이스 같은 정형 비즈니스 데이터를 처리하는 Fabric IQ, MS 앱 생태계를 연결하는 Work IQ, 그리고 웹 검색을 담당하는 Web IQ로 나뉜다. 이들은 모두 화면 없이 시스템끼리 데이터를 주고받는 헤드리스(headless) 인터페이스로 설계되어 개발자와 에이전트가 서로 상호작용하며 각기 다른 유형의 컨텍스트(맥락 정보)를 빠르게 제공한다.

데이터를 처리하는 장소도 클라우드에서 내 책상 위로 내려온다. 엔비디아(Nvidia)의 최신 칩을 탑재한 Microsoft Surface AI engineered laptop은 AI 모델을 로컬(내 컴퓨터 내부)에서 직접 실행할 수 있게 설계됐다. 외부 서버로 데이터를 보내지 않고 기기 자체에서 연산을 처리함으로써 응답 속도를 높이고 데이터 유출 위험을 줄여 보안성을 확보하는 방식이다.

여기에 사용자의 일상을 학습하는 물리적 접점으로서의 컨셉 기기들도 함께 선보였다. 사용자가 말하고 쓰는 데이터를 실시간으로 수집하고 흡수하여 개인화된 에이전트와 모델을 개선하는 것이 목표다. 기기가 사용자의 활동을 보고 듣고 읽으며 데이터를 쌓아 나를 더 잘 아는 AI를 만드는 구조다. 다만 이를 실제로 구현해 매끄럽게 작동시킬 수 있는 초기 버전(V1) 에이전트가 아직 부족하다는 점은 해결해야 할 과제다.

로봇 학습 데이터 병목을 겨냥한 해법

AI 모델은 거대 기업의 API(소프트웨어 간 연결 통로)를 빌려 쓰는 게 당연한 상식처럼 굳어졌다. 하지만 이번에 공개된 MAI(마이크로소프트 자체 AI 모델군)는 그 전제를 뒤집는다. MAI-Thinking-1을 포함해 다양한 모달리티(데이터 형태)와 사용 사례를 아우르는 총 7개의 인하우스 모델을 선보였다. 토큰 효율성(AI가 처리하는 글자 단위의 경제성)과 최적화에 집중했으며, 고객이 가진 데이터셋으로 모델을 직접 커스터마이징(사용자 맞춤 설정)할 수 있게 설계한 프런티어 모델이다. 외부 모델을 튜닝하는 수준을 넘어 기초부터 직접 설계한 모델로 제어권을 확보했다.

파트너십에만 매달리던 전략도 바뀌었다. OpenAI의 최대 투자자였지만 최근 관계에 긴장이 흐르며 의존도를 낮추는 모양새다. 이미 제품 곳곳에 Claude(앤스로픽의 AI 모델) 같은 다른 모델들을 도입하며 파트너십을 분리하고 있다. 텍스트와 이미지, 음성 등 다양한 데이터를 동시에 처리하는 멀티모달 운영 체제로 전환하려는 움직임이다. 특정 파트너에 묶이지 않고 여러 모델을 유연하게 갈아 끼우는 구조를 만들겠다는 계산이다.

Build 2026 컨퍼런스에서는 Scout(개인용 업무 에이전트)라는 새로운 도구를 공개했다. 사용자의 업무를 돕는 전용 비서 역할을 수행하는 개인용 업무 에이전트다. 자체 모델 확보와 에이전트 출시를 통해 외부 의존 없이 스스로 생태계를 구축하려는 의도가 읽힌다. 인프라부터 서비스까지 수직 계열화를 완성해 기업용 AI 시장의 주도권을 다시 가져오려는 전략이다.

기술이 실제로 작동하는 방식

개발자가 하나의 거대 모델에 모든 일을 맡기다 한계를 느낀 지점부터 변화가 시작됐다. 마이크로소프트는 특정 작업에 최적화된 7개의 AI 모델을 병렬적으로 개발해 발표했다. 이미지 생성을 위한 Large와 Flash 모델, 말소리를 텍스트로 바꾸는 전사(transcription) 모델, 복잡한 단계를 밟아 생각하는 추론(reasoning) 모델, 음성 모델 2종, 그리고 코딩 모델이 포함된다. 코파일럿(Copilot)은 이 모델들이 각자의 영역에서 함께 작동하도록 조율하는 오케스트레이션 엔진(여러 시스템을 통합 관리하는 지휘 체계) 역할을 수행한다. 상황에 맞는 모델을 선택해 연결하는 지휘자 역할을 맡은 셈이다.

운영 단계에서 관리자가 가장 신경 쓰는 부분은 시스템이 멈추지 않고 일정하게 작동하는지 확인하는 일이다. 마이크로소프트 파운드리(Microsoft Foundry)는 에이전트 호스팅과 제어 평면(시스템 전체를 한눈에 보고 관리하는 제어판) 기능을 통해 이를 해결한다. 서버 확장이나 컨테이너화(소프트웨어를 실행 환경과 함께 묶어 어디서든 동일하게 작동하게 만드는 기술) 과정을 자동으로 처리해 인프라 관리의 번거로움을 없앴다. 관리자는 제어 평면에서 비용과 토큰 사용량, 정답률을 실시간으로 살피는 관측 가능성을 확보한다. 실제 상호작용 샘플을 지속적으로 평가해 에이전트의 성능이 시간이 지나며 서서히 떨어지는 드리프팅(drifting) 현상을 방지하고 일정한 품질을 유지한다.

마이크로소프트가 공개한 새로운 AI 하드웨어 기기들은 실제

화려한 시연 영상 속 기기를 보고 곧 구매할 수 있을 거라 기대하곤 한다. 이번에 공개된 데스크톱 기기와 목에 거는 키 카드 형태의 장치도 얼핏 보면 당장 시장에 출시될 제품처럼 보였다. 하지만 이는 다른 기업들이 영감을 얻어 자체 버전을 만들도록 유도하기 위해 선보인 컨셉 모델이다. 마이크로소프트는 이 기기들을 실제로 생산해 출하할 계획이 전혀 없다는 사실을 분명히 했다. 직접 제품을 팔아 수익을 내기보다 다른 제조사들이 AI 하드웨어를 어떤 방향으로 설계해야 할지 보여주는 아이디어 뱅크 역할을 자처한 셈이다. 단순한 제품 공개가 아니라 AI가 결합된 하드웨어의 표준을 제안하려는 의도가 담겨 있다.

실제 사용자가 체감하는 AI의 응답 품질은 도구마다 차이가 크다. Copilot(코파일럿, MS의 AI 비서)은 ChatGPT나 Claude(클로드, 앤스로픽의 AI 챗봇)에 비해 성능이 낮다는 평가를 지속적으로 받는다. 마이크로소프트 역시 자사 제품이 경쟁 모델보다 뒤처져 있다는 점을 공식적으로 인정했다. 특히 최신 모델이 아닌 구버전 ChatGPT 모델을 기반으로 작동하고 있어 전반적인 효율성이 떨어진다는 지적이 많다. 엔진 역할을 하는 모델의 버전 차이가 결국 사용자가 느끼는 똑똑함의 차이로 직결된 결과다. 최신 모델이 주는 빠른 추론과 정확도에 익숙한 사용자들에게 구버전의 한계는 더욱 도드라져 보일 수밖에 없다.

한국 AI 현장에서 볼 지점

현업 팀이 특정 모델 하나만 고집하다가 복잡한 코딩이나 창의적 글쓰기에서 한계를 느끼고 모델을 갈아타는 수고를 반복하곤 한다. 마이크로소프트는 이런 번거로움을 없애기 위해 OpenAI의 GPT 프런티어 모델과 앤스로픽(Anthropic)의 클로드(Claude) 모델을 한곳에서 모두 제공하는 전략을 쓴다. 최근에는 Azure Foundry(애저 파운드리, 클라우드 기반 AI 개발 플랫폼)에 Claude Opus 4.8을 출시했으며, 여기에 자체 MAI 모델까지 라인업에 추가했다. 인프라의 가장 밑단부터 모델 선택의 자유를 보장해 기업이 서비스 성격에 맞춰 가장 효율적인 모델을 선택해 조합할 수 있게 한 것이다.

에이전트가 내놓은 답이 왜 틀렸는지 정확히 짚어내지 못해 수동으로 지시문을 고치던 개발자들에게는 Agent Optimizer(에이전트 옵티마이저, AI 작동 최적화 도구)가 실질적인 도구가 된다. 이 장치는 에이전트가 의도대로 움직이는지 아주 세밀한 단위로 쪼개어 평가하는 새로운 방식을 도입했다. 에이전트가 올바르게 작동하는지 확인하는 평가 기준을 더 촘촘하게 설계해 문제 지점을 정확히 찾아낸다. 특히 성능 최적화 단계에서 사용자의 동의를 얻어 프롬프트(AI에게 내리는 지시문)를 직접 수정하고, 이를 통해 에이전트가 다음번에 더 정확하게 답하도록 만드는 피드백 루프를 생성한다. 단순한 결과 확인을 넘어 정답률을 높이는 정밀 교정 시스템을 갖춘 셈이다.

코파일럿을 쓰면서 회사 내부 문서나 최신 정보를 제대로 못 가져와 답답했던 적이 있을 것이다. 마이크로소프트는 IQ라는 정보 연결 층을 만들어 에이전트가 기업 데이터와 앱, 웹에 직접 접근하게 했다.

모든 IQ 서비스는 MCP 서버로 제공되어 에이전트가 소프트웨어 간 연결 통로인 API를 스스로 인식하고 사용한다. 이제는 질문 기술을 다듬는 프롬프트 튜닝보다 데이터 연결 방식과 신원 관리라는 인프라 관점에서 전략을 세워야 한다. 에이전트의 실무 능력은 모델의 지능이 아니라 데이터에 얼마나 깊숙이 연결되어 있느냐로 결정된다.