버그를 증가시켰다는 가설은 통계적으로 근거가 없다

"AI가 짠 코드가 버그를 더 많이 만들 것"이라는 막연한 불안감이 개발 현장을 덮칠 때, 분석가는 실제 릴리스 기록을 통해 수치를 대조했다. 분석 결과 Claude(클로드)가 개입된 rsync(원격 파일 동기화 도구) 릴리스의 버그 발생률은 무작위로 선택한 다른 릴리스들과 비교해 특별히 나쁘지 않은 수준이었다. 순열 검정(permutation test)을 통해 확인한 결과, AI 도입 후 품질이 악화되었다는 가설의 예측력은 동전 던지기와 비슷한 수준으로 나타났다.

rsync 역사상 가장 많은 버그가 쏟아졌던 최악의 릴리스는 오히려 Claude 도입 이전에 발생했다. 당시에는 AI라는 명확한 비난 대상이 없었기에 일반적인 수정 과정으로 처리되었으며 큰 논란으로 번지지 않았다. 이는 특정 도구의 도입 여부보다 소프트웨어의 역사적 버그 분포를 먼저 살피는 것이 중요하다는 사실을 증명한다.

통계적 분석에 따르면 Claude 그룹의 버그 수치는 역사적 분포 내에 있으며 이상치로 분류되지 않는다. 눈을 감고 무작위로 두 개의 릴리스를 뽑았을 때, Claude가 포함된 경우보다 더 나쁜 결과가 나올 확률이 거의 절반에 달한다. AI 도입 후 발생하는 결함을 무조건 AI 탓으로 돌리기 전, 기존 버전의 역사적 버그율 분포와 비교하는 객관적 측정 기준을 확보하는 것이 우선이다.

기존 방식과 달라진 지점

도구를 쓸 때 어느 순간 성능의 계단이 바뀌었다고 느끼는 지점이 있다. Anthropic은 현재 Mythos 프리뷰의 후속작인 Claude Oceananis(클로드 오세아니스) v1 프리뷰의 레드팀 테스트를 진행 중이다. 코드네임 ocean으로 알려진 이 모델은 공개 출시 약 일주일 전부터 테스트를 시작하는 통상적인 일정에 따라 움직인다. OpenAI 역시 추론 기능을 끄고도 인상적인 SVG 생성 능력을 보여주는 GPT 5.6 체크포인트 jewel alpha(쥬얼 알파)를 포착했다.

에디터에서 직접 코드를 치던 개발자의 일상도 변하고 있다. 엔지니어는 이제 리포지토리 전반의 스웜(swarms, 군집형 AI 에이전트)을 관리하는 팩토리 매니저(factory manager)의 역할로 옮겨가는 중이다. 개발의 병목 구간은 기술적 숙련도가 아니라 결과물을 선택하는 취향(taste)의 영역으로 이동했다.

제어 방식은 정답을 알려주는 것에서 오답을 정의하는 방향으로 정교해졌다. Anthropic은 내부 스킬을 라이브러리 및 API 참조, 제품 검증, 데이터 및 분석, 비즈니스 자동화, 스캐폴딩 및 템플릿, 코드 품질 및 리뷰, CD 배포, 인시던트 런북, 인프라 운영 등 9가지 카테고리로 분류해 관리한다. 특히 실패 지점을 기반으로 무엇을 하지 말아야 하는지 명시하는 Gotchas(주의 사항) 섹션을 가장 신호 가치가 높은 콘텐츠로 꼽는다. 실제 성공한 이메일 참조 파일과 피해야 할 내용이 담긴 avoid 마크다운 파일을 함께 제공해 성능을 높이는 방식이다.

기업의 규모와 시장의 시선도 함께 변했다. Anthropic의 최신 기업 가치는 9,650억 달러로 평가받는다. 최근 v3.4.3 릴리스 당시 쏟아진 비판은 기술적 결함보다는 AI에 대한 부정적 인식에서 기인했다. 과거의 심각한 버그들이 정상적으로 수정되었음에도 이번에는 포크(fork, 코드 복제 후 독자 개발) 협박과 같은 과도한 반응이 뒤따랐다.

기술이 실제로 작동하는 방식

단순히 코드를 짜주는 도구를 넘어 시스템 전체를 제어하는 경험이 가능해졌다. Claude Code는 머신 상의 모든 활동을 조정하고 제어하는 운영체제(OS) 형태로 진화했다. 특히 Opus 4.8과 함께 출시된 다이내믹 워크플로우(Dynamic Workflows, 반복 가능한 지침으로 여러 에이전트를 생성해 작업을 수행하는 기능)가 여러 구성 요소를 하나의 OS로 묶어주는 핵심 역할을 한다.

단일 프롬프트로 복잡한 소프트웨어 경험을 구축하는 단계까지 올라왔다. Claude Oceananis는 모델이 직접 만든 커스텀 메싱 엔진과 3GS HTML을 사용해 제로샷으로 박스 판타지 세계를 생성했다. 정확한 애플리케이션 SVG가 포함된 Mac OS 클론을 완전히 구현하며 인터랙티브 소프트웨어 설계 능력을 증명했다.

에이전트의 효율과 자립을 위한 경쟁도 구체적이다. Nvidia는 5,500억 파라미터 모델인 Nemotron Ultra를 출시해 추론 속도를 최대 5배 높이고 복잡한 에이전트 워크로드 비용을 30% 절감했다고 밝혔다. Microsoft AI의 무스타파 술레이만(Mustafa Suleyman) CEO는 외부 의존도를 낮추고 직접 모델을 구축해 완전한 자립을 달성하겠다고 선언했다. OpenAI 역시 코딩 분야의 진전을 바탕으로 GPT 5.6 혹은 GPT 6 출시를 준비 중이며, Google은 개인 지능을 활용한 스토리 생성 프로젝트 Dream Beans를 실험 중이다.

이런 변화가 가져올 버그 증가 우려는 통계적으로 검증됐다. 순열 검정(Permutation test, 무작위 그룹이 특정 그룹만큼 나쁜 점수를 받을 확률을 계산하는 방식)과 피셔의 정확 검정(Fisher's exact test, 릴리스가 역사적 중앙값보다 높을 확률을 분석하는 방식)을 사용했다. 분석 결과 Claude 릴리스의 특이성은 통계적으로 유의미하지 않은 것으로 나타났다.

미국 증시 상장(IPO)을 위해 비밀리에 신청서를 제출했다

AI 기업의 성장은 대개 불투명한 투자금 규모로만 가늠했다. Anthropic이 미국 증시 상장(IPO)을 위해 비밀리에 신청서를 제출하며 상황이 바뀐다. 상장이 진행되면 매출 성장과 추론 비용, 매출 총이익, 클라우드 약정 및 기업 고객 유지율 등 실제 재무 데이터가 공개된다. AI 거품 논란을 실제 장부로 검증하는 계기가 된다.

수동으로 코드를 짜는 방식은 이미 일부 현장에서 사라졌다. Spotify는 더 이상 코드를 직접 작성하지 않는다고 밝혔으며, Anthropic은 자율 에이전트를 활용해 새로운 C 컴파일러를 구축했다. OpenClaw는 사람이 diff(코드 변경 사항)를 읽는 속도보다 빠르게 결과물을 배포하는 'Dark Factory'(자동화 공장) 개념을 도입했다. 단순한 시도가 아닌 엔지니어링 작업이 수반된 고속 배포가 업계 표준이 되고 있다.

모델의 사고 능력은 이제 최대치를 넘어선 단계로 진입했다. Claude Opus 4.8의 'Ultra Code' 모드는 일반적인 maximum 단계를 넘어선 최고 수준의 사고 노력(thinking effort)을 끌어내며 Arc AGI와 Deep Suite 벤치마크에서 성과를 냈다. 이 모델은 세금과 복지, 수요와 공급이 작동하는 가상 도시의 자율 작동 경제 시스템 벤치마크를 직접 구축하기도 했다.

시스템 운영 방식도 OS(운영체제) 구조를 닮아간다. Claude Code는 `claude.md`와 컨텍스트 파일이 커널 역할을 하고, MCP(Model Context Protocol, 모델 컨텍스트 프로토콜)가 외부 도구와 연결되는 드라이버 역할을 수행한다. 여기에 루프(Loops)와 루틴(Routines) 기능이 추가되어 OS의 스케줄러인 크론 잡(Cron job)처럼 반복 작업을 자동화한다. v3.4.2와 v3.4.3 릴리스의 버그율이 사분위수 범위(IQR) 내에 위치해 통계적 이상치가 아니라는 점은 이러한 시스템적 접근의 안정성을 뒷받침한다.

자체 개발한 7개의 새로운 AI 모델을 발표했다

rsync(원격 파일 동기화 도구) v2.x 버전의 평균 버그율은 1.11 sev/10c였지만 v3.x 버전은 4.23 sev/10c로 크게 뛰었다. Claude(클로드)가 개입된 릴리스를 v3.x 범위 내에서만 비교하면 성적은 중간 수준이거나 오히려 더 나았다. AI가 짠 코드가 버그를 양산한다는 불안감은 기존 버전의 역사적 분포와 비교했을 때 통계적 이상치라고 보기 어렵다.

외부 제공자에 대한 의존도를 낮추기 위해 Microsoft AI가 자체 개발한 7개의 새로운 AI 모델을 발표했다. 플래그십 추론 모델인 thinking model과 코딩 모델 MAI code one flash가 포함된다. MAI transcribe 1.5(전사 모델)는 최첨단 수준의 정확도를 기록하며 경쟁 모델보다 5배 빠른 속도를 제공한다.

고유한 정체성을 갖고 자율적으로 행동하는 개인용 에이전트 Microsoft Scout(마이크로소프트 스카우트)는 autopilots(오토파일럿)라는 새로운 카테고리로 도입됐다. 개발 현장에서는 AI를 활용한 초고속 배포가 나타나고 있다. OpenClaw(오픈클로) 메인테이너 Vincent는 3월 15일 하루 약 3,000건의 커밋을 기록했고, Steve Yegge는 스스로를 바이브 메인테이너라 칭하며 하루 50개의 PR(풀 리퀘스트)을 단독 제출한다.

시스템이 다음 행동을 결정하는 비결정론적 방식의 Goal 명령어와 달리, Claude Code의 다이내믹 워크플로우는 코드가 결과를 결정하는 결정론적 방식으로 작동한다. 한편 Anthropic(앤스로픽)의 IPO(기업공개) 결과는 AI 경제의 거품 여부를 가르는 현실 점검이 될 것이다. 재무제표의 마진율이 긍정적이라면 현재의 인프라 구축 붐이 정당화되지만, 수치가 좋지 않을 경우 AI 회의론자들에게 강력한 근거를 제공하게 된다.

AI가 작성한 코드가 버그를 더 많이 만들 것이라는 불안은 구체적인 통계 수치 앞에서 힘을 잃는다. Permutation test와 Fisher's exact test를 통해 분석한 Claude 개입 릴리스의 버그율은 IQR(0.29~2.59 sev/10c) 내에 위치하며 역사적 분포 내의 정상 범위임을 보여줬다.

결함의 원인을 막연히 AI의 탓으로 돌리기 전, 기존 버전의 역사적 버그율 분포와 대조하는 객관적 측정 기준을 확보하는 것이 실질적인 검증의 시작이다.