미국 정부, 국가 안보 이유로 클로드 최신 모델 사용 중단 명령

미국 정부의 명령으로 Anthropic의 제품 로드맵이 중단됐다. 정부는 국가 안보 우려를 이유로 최신 AI 모델인 Claude Fable 5와 Claude Mythos 5의 액세스를 즉시 중단하도록 명령했다.

이번 조치는 특정 국가나 인원에 국한되지 않고 전 세계 모든 사용자를 대상으로 한 강제 비활성화 명령이다. Anthropic은 X(소셜 미디어 플랫폼)를 통해 정부 지시에 따라 즉각 모델 액세스를 차단했으나, 이번 결정에 대해서는 이견을 표명했다.

Claude Fable 5는 Claude Mythos 5에 안전 가드레일을 적용해 일반 공개한 모델로, 출시 3일 만에 중단 조치를 맞았다. Anthropic은 사이버 보안 및 생물학 등 고위험 분야의 응답을 차단하도록 설계해 안전성을 확보했다고 주장했다. 실제로 Vals AI의 벤치마크 테스트 결과, 이 모델은 출시 직후 공개된 AI 모델 중 가장 뛰어난 성능을 기록했다. 하지만 정부는 이러한 압도적인 성능이 취약점 탐지 등의 안보 위협으로 이어질 수 있다고 판단했다.

취약점 탐지 능력과 독립 분류기 기반의 안전 장치

미국 정부는 Claude Fable 5가 특정 코드베이스를 읽고 소프트웨어 결함을 식별하는 제한적인 탈옥(jailbreak, 모델의 제한 설정을 우회하여 금지된 답변을 끌어내는 행위) 가능성이 있다는 점을 지적했다. 이에 대해 Anthropic은 해당 능력이 OpenAI의 GPT-5.5를 포함한 여러 공개 모델에서도 제공되는 수준이라고 반박했다. 사이버 보안 전문가들이 방어 목적으로 활용하는 기능이 국가 안보 위협으로 해석된 것이다.

Anthropic은 이를 제어하기 위해 모델과 완전히 분리되어 작동하는 '독립 분류기(independent classifier)' 기반의 안전 장치를 운영하고 있다. 이는 모델의 출력값이 안전 가이드라인을 준수하는지 별도로 판별하는 시스템이다. 사용자의 정교한 유도로 모델이 거부 응답 이후에도 답변을 이어가는 탈옥 상황이 발생하더라도, 독립 분류기가 위험한 출력물을 최종적으로 차단한다. 즉, 모델 내부의 튜닝이 아닌 분리된 인프라 수준에서 리스크를 제어하겠다는 설계다.

안전 강조 전략이 초래한 비즈니스 리스크와 규제 개입

이러한 기술적 리스크는 Anthropic의 대외 커뮤니케이션 전략과 맞물려 더 큰 규제로 이어졌다. Anthropic은 Claude Mythos 5를 일반 공개하기에 너무 위험한 모델로 정의하며 신중한 배포 전략을 취했다. 그러나 모델의 위험성을 스스로 강조한 행보가 역설적으로 정부의 집중 조사를 유도하는 계기가 됐다. 올해 IPO(기업공개)를 추진하는 시점에서 정부의 감시는 실질적인 비즈니스 리스크로 작용한다.

규제 리스크의 실체는 모든 주요 운영 체제와 웹 브라우저에서 결함을 식별하는 모델의 성능이다. Anthropic은 이를 관리하기 위해 'Project Glasswing(방어적 사이버 보안 목적의 통제 프로그램)'을 구축했다. 이 프로그램을 통해 Amazon, Apple, Google, Microsoft, CrowdStrike를 포함한 검증된 50여 개 조직에만 모델을 공유하고 방어적 보안 업무로 활용을 제한했다. 하지만 정부는 이러한 통제 체계에도 불구하고 모델이 보유한 고성능 취약점 탐지 능력이 국가 안보에 위협이 된다고 판단해 즉각 개입했다.

OpenAI와 앤스로픽 등 거대 AI 기업들이 안전성을 강조함에도 미국 정부는 국가 안보 우려로 클로드 파블 5와 미토스 5의 전 세계 접근을 즉시 중단시켰다. 모델과 분리된 독립 분류기 기반의 보호 체계조차 성능 자체가 유발하는 안보 리스크를 상쇄하지 못했다.

취약점 탐지 능력을 포함한 모델의 고성능이 규제 당국의 개입을 결정하는 실무적 잣대가 됐다. 모델 성능이 일정 수준을 넘어서면 규제 대상이 되며, 이는 기업의 리스크 관리 핵심 변수가 된다.