코드 80%를 AI가 짜는 시대, Anthropic이 예고한 '재귀적 개선'

AI 모델이 자율적으로 완수할 수 있는 작업 시간 지평이 약

잠깐이면 끝날 일도 끝까지 지켜보고 있어야 하면 금세 지치기 마련이다. AI 모델이 스스로 작업을 완수할 수 있는 시간 범위가 약 4개월마다 두 배씩 늘어나며 이런 수고를 덜어주고 있다. 2024년 3월 Claude Opus 3는 약 4분짜리 소프트웨어 작업을 처리하는 수준이었지만, 2026년 Claude Opus 4.6은 12시간 분량의 작업을 스스로 끝낼 수 있게 됐다. 사람이 옆에서 계속 지시하지 않아도 AI가 혼자 고민하고 실행하는 시간이 비약적으로 길어진 것이다. 이 추세가 계속 유지된다면 2027년에는 몇 주 단위의 긴 작업도 AI가 단독으로 처리하는 범위에 들어올 가능성이 크다.

최근에는 정해진 답이 없는 개방형 연구 프로젝트를 가설 제안부터 검증까지 처음부터 끝까지 수행하는 시연이 공개됐다. 인간 연구자 2명이 일주일 동안 매달려 격차의 약 23%를 회복한 것과 달리, 에이전트(특정 목표를 달성하기 위해 스스로 계획을 세우고 실행하는 AI)는 누적 800시간의 컴퓨팅 자원과 약 18,000달러를 투입해 97%를 회복했다. 컴퓨터가 쉬지 않고 계산을 반복하며 인간이 일주일간 이룬 성과보다 훨씬 높은 정답률을 기록한 셈이다. 다만 어떤 문제를 풀지 정하고 결과에 점수를 매기는 기준은 여전히 사람이 담당했다. 단순한 보조를 넘어 끈기 있게 파고들어야 하는 전문 연구 영역까지 AI가 자율적으로 처리할 수 있는 시간이 늘어난 결과다.

기존 방식과 달라진 지점

개발자가 AI를 쓰면 코드 한 줄 짜는 시간이 조금 줄어든다고 믿었다. 하지만 실제 현장은 단순한 시간 단축을 넘어 주객이 전도된 모습이다. 2026년 5월 기준 Anthropic 코드베이스에 병합되는 코드의 80% 이상을 Claude가 직접 작성하고 있다. 병합은 개발자가 짠 코드를 검토해 실제 서비스 시스템에 최종적으로 합치는 과정이다. 2026년 2분기 일반 엔지니어가 하루에 시스템에 합치는 코드량은 2024년보다 8배나 늘었다. 사람이 직접 타이핑하는 양이 늘어난 것이 아니라, AI가 쏟아낸 결과물을 검토해 승인하는 속도가 빨라진 결과다. 이제 엔지니어는 무엇을 만들지 지시하고 결과물을 검토하는 감독관 역할을 하며, 실제 코드를 짜고 실행하는 실무는 AI가 도맡는다. 단순히 오타를 고치는 수준을 넘어, 전체적인 설계 방향을 잡고 AI가 짠 코드가 의도대로 작동하는지 확인하는 검수 작업이 핵심이 되었다.

연구 과정에서 다음 단계를 결정하는 판단력 역시 사람의 선택지를 넘어서고 있다. AI가 연구 세션에서 어떤 실험을 먼저 진행하고 어떤 변수를 수정할지 스스로 정하는 능력을 측정한 결과다. 특히 인간의 선택에 개선 여지가 있었던 순간들을 따로 모아 AI의 판단과 비교해 보았다. 2025년 11월 Opus 4.5(최고 성능 모델)는 인간이 선택한 방식보다 더 나은 경로를 51% 확률로 찾아냈다. 2026년 4월에 등장한 Mythos Preview는 이 수치를 64%까지 높였다. 모델의 버전이 올라갈수록 판단의 정확도는 가파르게 상승했다. 사람이 수많은 경험을 바탕으로 고민해 내린 결정보다 AI가 제안한 다음 단계가 더 효율적일 가능성이 커진 셈이다.

기술이 실제로 작동하는 방식

개발자가 코드의 속도를 높이려고 하면 며칠 밤을 새우며 비효율적인 구간을 찾아내는 지루한 싸움을 이어가곤 한다. 2025년 5월의 Claude Opus 4는 이런 최적화 작업에서 초기 코드 대비 약 3배의 속도 향상을 기록하며 가능성을 보였다. 여기서 더 진화한 2026년 4월의 Claude Mythos Preview는 무려 52배의 개선을 달성하며 성능의 격차를 극단적으로 벌렸다. 보통 숙련된 연구자가 4배 정도의 속도를 높이는 데만 4~8시간을 쏟아부어야 한다는 점을 생각하면 이는 인간의 작업 방식을 완전히 벗어난 속도다. 정해진 규칙과 목표가 명확한 실험 환경 내에서 AI가 인간의 능력을 뛰어넘는 초인적 성능을 증명한 셈이다.

이러한 성능 도약은 향후 AI 개발의 미래를 세 가지 시나리오로 나누어 전망하게 만든다. 먼저 지금의 발전 속도가 어느 지점에서 멈춰버리는 추세 정체 시나리오가 있다. 다음은 인간이 연구의 큰 방향을 설정하고 결과의 적절성을 판단하는 역할을 유지하면서 시스템의 효율을 복리로 높이는 방식이다. 마지막은 AI가 스스로 다음 버전의 모델을 설계하고 성능을 개선하는 재귀적 자기 개선 단계에 진입하는 것이다. 현재로서는 인간이 방향타를 쥐고 효율을 끌어올리는 시나리오가 실현될 가능성이 가장 높다고 판단된다. AI가 스스로를 고치고 발전시키는 단계에 도달한다면 개발의 주체와 방식이 완전히 바뀌는 결과로 이어진다.

Anthropic은 2026년 5월 기준 코드베이스에 병합되는 코드의 80% 이상을 Claude가 작성하는 단계에 진입했다. 4개월마다 두 배씩 늘어난 자율 작업 시간은 2026년에 이르러 12시간 분량의 업무까지 스스로 처리할 수 있는 수준으로 올라선다.

개발자의 역할은 이제 코드를 직접 쓰는 작업에서 방향을 설정하고 검토하는 관리의 영역으로 완전히 이동한다. 구현의 고통이 사라진 자리에는 무엇을 만들 것인지 결정하는 설계자의 관점만 남는다.

코드 80%를 AI가 짜는 시대, Anthropic이 예고한 '재귀적 개선'

AI 모델이 자율적으로 완수할 수 있는 작업 시간 지평이 약

기존 방식과 달라진 지점

기술이 실제로 작동하는 방식

관련 기사