AI 벤더들이 내세우는 코드 생성량의 실체

주요 AI 벤더들이 주장하는 'AI 작성 코드 비율 75~80%'는 생산성 향상의 증거가 아니라 단순한 양적 볼륨(Volume) 수치다. Google은 신규 코드의 75%를 AI가 생성했다고 밝혔고, Anthropic과 OpenAI는 프로덕션 코드의 약 80%가 AI 작품이라고 제시했다. Anthropic은 엔지니어가 분기당 8배 더 많은 코드를 배포한다는 점을, Cursor는 하루 1억 줄 이상의 엔터프라이즈 코드를 작성한다는 점을 강조하며 양적 성장을 증명하려 한다.

하지만 이런 수치가 실제 작업 효율로 이어지지는 않는다. NBER(전미경제연구소)이 임원 6,000명을 조사한 결과, 10곳 중 9곳의 기업이 측정 가능한 생산성 효과를 보지 못했다. METR(모델 평가 및 보고 연구소)은 숙련된 개발자의 속도가 오히려 19% 느려졌다는 결과를 냈다가, 이후 AI 없이는 작업하기를 거부하는 개발자들의 행동 패턴 때문에 연구 설계 자체를 폐기했다. 여러 교차 연구를 종합하면 조직 단위의 실제 생산성 향상은 약 10% 수준에 머문다.

양적 지표와 실질적 성과의 괴리

지금의 볼륨 중심 주장과 과거의 성과 측정 방식은 완전히 결이 다르다. 초기 GitHub Copilot은 사용자가 작업을 55% 더 빠르게 완료했다는 '성과(Outcome)' 지표를 내세웠다. 성과 지표는 실제 가치 창출 여부를 반증 가능하게 입증하는 기준으로, 수치가 틀렸을 때 객관적으로 증명할 수 있는 대담한 지표다. 반면 현재 벤더들이 말하는 '코드 작성 비율'은 배포 속도나 장애 감소와 무관하게 기술 채택률만 높으면 자동으로 올라가는 구조다.

실제로 Anthropic이 실시한 무작위 대조군 실험(RCT)에서는 AI 지원 개발자가 출시한 코드의 이해도가 17% 낮았으며, 통계적으로 유의미한 생산성 향상은 없었다. 벤더들이 내세우는 채택률 부풀리기가 엔지니어링 품질 개선으로 이어지지 않는 'AI 버전의 허영 지표'가 된 셈이다. Carnegie Mellon SEI와 Accenture가 조직 95%가 수익을 내지 못한다는 통계를 냈고, Augment가 엔지니어링 리더 219명에게 'AI 네이티브 엔지니어링'의 정의를 물었을 때 219개의 서로 다른 답변이 돌아온 점은 업계의 혼란을 그대로 보여준다.

AI 도입이 가져온 인력 구조의 변화와 측정 기준

왜곡된 지표는 기업의 인력 계획과 예산 결정에 위험한 근거가 되고 있다. 잭 도시는 블록(Block) 인력의 40%인 4,000명 넘는 인원을 감축하며 더 작은 팀이 AI로 더 많은 일을 할 수 있다는 논리를 폈다. 아틀라시안(Atlassian) 역시 인력의 10%인 1,600명을 감축하며 AI가 역할 수를 변화시켰음을 인정했다. 하지만 이런 결정이 실제 생산성 향상에 기반했는지는 불분명하며, 과잉 채용이나 투자자 압박이라는 외부 요인을 AI라는 명분으로 포장했을 가능성이 크다. 코드 라인 수나 PR(Pull Request) 개수 같은 허영 지표로 인력을 선별하는 것은 위험한 도박이다.

AI 도입 성과를 제대로 측정하려면 DORA(DevOps Research and Assessment) 지표 같은 검증된 기준이 필요하다. DORA 지표는 배포 빈도, 변경 실패율, 복구 시간 등을 통해 소프트웨어 인도 능력을 측정하는 표준 체계다. 이제 기업은 코드 라인 수 대신 시스템 신뢰성, 의미 있는 변경 속도, 매출 기여도, 고객 가치 같은 결과 지표를 점수판으로 삼아야 한다. 15년 전 SaaS 기업에서 코드를 40% 더 많이 썼다고 해서 더 뛰어난 개발자로 평가하지 않았던 것과 같은 이치다.

AI 도입은 클라우드 때보다 훨씬 빠른 속도로 생존을 결정짓고 있다. 모든 엔지니어는 최신 모델을 적극적으로 시험하는 AI-first 방식으로 일하되, 성과를 측정하는 방식만큼은 전장에서 검증된(battle-tested) 기준을 유지해야 한다. 벤더의 피칭이나 임원 리뷰에서 우리가 던져야 할 핵심 질문은 명확하다. "그것이 실질적인 성과(Outcome)인가, 아니면 단순한 볼륨(Volume)인가?"