순차적 예측에서 확산 공정으로의 전환

ChatGPT가 한 글자씩 타이핑하듯 답변을 내놓는 모습은 이제 익숙한 풍경이다. Google DeepMind는 이 순차적 생성 방식(자기회귀) 대신, 이미지 생성 AI의 핵심인 확산 공정(Diffusion)을 텍스트에 적용한 DiffusionGemma를 공개했다.

핵심은 '다음 단어 예측'을 '노이즈 제거' 방식으로 바꾼 것이다. 텍스트가 순서대로 나열되는 것이 아니라, 전체적인 구조가 안개 속에서 드러나듯 점진적으로 구체화된다. 개발자는 이를 통해 텍스트 생성의 수학적 경로를 완전히 다르게 설계할 수 있다.

이는 단순히 모델 크기를 키우는 경쟁이 아니라, 텍스트가 생성되는 물리적 경로 자체를 재설계한 시도다. 사용자는 기존의 타이핑 방식과는 완전히 다른 데이터 생성 과정을 통해 결과물을 얻게 된다.

26B MoE 아키텍처와 이산 확산의 기술적 결합

DiffusionGemma는 26B A4B MoE(전문가 혼합 방식, 전체 파라미터 중 일부만 활성화해 연산 효율을 높이는 구조) 아키텍처를 기반으로 한다. 여기에 노이즈 상태에서 정답 토큰을 찾아가는 이산 확산(Discrete Diffusion) 방식을 결합해 생성 속도와 배포 효율을 동시에 잡았다.

텍스트를 넘어 이미지와 비디오 입력까지 처리하는 멀티모달 능력도 갖췄다. 시각적 정보와 언어 정보를 동시에 처리하여 텍스트 전용 모델보다 확장된 추론 능력을 제공한다.

생성 과정의 불확실성을 제어하기 위해 Entropy-Bound(엔트로피 경계) 샘플러를 기본 적용했다. `--diffusion-eb-max-steps` 옵션(기본값 48)으로 품질을 미세 조정할 수 있으며, 단일 GPU 환경에서는 KV cache(이전 대화 저장소)가 자동 활성화되어 추론 속도를 높인다.

24GB GPU 환경의 실무 도입 및 구동 조건

Apache 2.0 라이선스로 공개되어 상업적 활용 제약이 없다. Unsloth가 제공하는 GGUF 양자화 버전을 쓰면 하드웨어 문턱이 더 낮아진다. 메모리 점유율은 BF16 47GB, Q8_0 25GB, Q6_K 21GB, Q5_K_M 18GB이며, 가장 작은 Q4_K_M 버전은 16GB를 차지한다. 덕분에 24GB GPU 한 장으로도 고성능 모델을 충분히 구동할 수 있다.

다만 블록 확산 구조 특성상 표준 실행기로는 구동할 수 없다. llama.cpp의 DiffusionGemma 전용 브랜치를 설치하고 빌드하는 과정이 필요하다.

bash
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
gh pr checkout 24423
cmake -B build -DGGML_CUDA=ON
cmake --build build -j --config Release --target llama-diffusion-cli

모델 다운로드는 huggingface-cli를 통해 수행하며, Q8_0 버전을 기준으로 다음과 같이 명령어를 입력한다.

bash
pip install -U "huggingface_hub[cli]"
hf download unsloth/diffusiongemma-26B-A4B-it-GGUF \
 --local-dir unsloth/diffusiongemma-26B-A4B-it-GGUF \
 --include "*Q8_0*"

실행 시에는 `llama-diffusion-cli`를 사용하며, `-n` 옵션으로 토큰 수를 지정하면 모델이 확산 블록 수와 컨텍스트 크기를 자동으로 계산한다. 특히 `--diffusion-visual` 플래그를 추가하면 256개 토큰의 캔버스에서 노이즈가 제거되며 텍스트가 완성되는 과정을 실시간으로 확인할 수 있다.

bash
./build/bin/llama-diffusion-cli \
 -m unsloth/diffusiongemma-26B-A4B-it-GGUF/diffusiongemma-26B-A4B-it-Q8_0.gguf \
 -ngl 99 -cnv -n 2048 --diffusion-visual

이제 판단 기준은 '전용 브랜치 설치'라는 추가 공정과 '24GB GPU'라는 하드웨어 제약을 감수할 만큼, 확산 모델 특유의 생성 방식과 새로운 UX가 서비스에 필요한가로 좁혀진다.