🤖 AI Summary Notice 이 글은 AI(Claude)가 논문을 읽고 작성한 요약입니다. 부정확한 내용이 있을 수 있으니, 정확한 정보는 원문을 참고해주세요.
TL;DR
Qwen-Image는 Alibaba Qwen 시리즈의 이미지 생성 파운데이션 모델로, 복잡한 텍스트 렌더링(특히 중국어)과 정밀한 이미지 편집에서 SOTA를 달성했다. Qwen2.5-VL을 조건 인코더로, 20B MMDiT를 backbone으로 사용하며, 새로운 MSRoPE 위치 인코딩, 7단계 데이터 필터링 파이프라인, 3단계 텍스트 합성 전략, dual-encoding 편집 메커니즘을 도입했다. GenEval 0.91, 중국어 텍스트 렌더링에서 GPT Image 1 대비 22%p 우위, GEdit/ImgEdit 편집 벤치마크 1위를 기록하며, 오픈소스 모델로서 상용 모델과 경쟁력 있는 성능을 보여준다.
저자: Qwen Team (Alibaba) 발행년도: 2025 링크: https://arxiv.org/abs/2508.02324
문제 정의
최신 이미지 생성 모델에도 불구하고 두 가지 핵심 과제가 남아 있었다:
복잡한 텍스트 렌더링의 한계: GPT Image 1, Seedream 3.0 같은 SOTA 상용 모델도 다중 행 텍스트, 비알파벳 언어(특히 중국어), 텍스트-이미지 통합 작업에서 실패. 특히 표의문자(logographic) 언어인 중국어는 수천 개의 글자가 long-tail 분포를 가져 자연 이미지 데이터만으로는 충분한 학습이 불가능.
이미지 편집의 일관성 문제: (i) 시각적 일관성 — 편집 대상 외의 영역이 변경되는 문제 (예: 머리색 변경 시 얼굴 디테일 변경), (ii) 의미적 일관성 — 구조적 변경 시 정체성과 장면 일관성 유지 (예: 포즈 변경 시 의상/배경 유지).
핵심 기여
- Superior Text Rendering: 다중 행 레이아웃, 문단 수준 의미론, 세밀한 디테일 포함한 복잡 텍스트 렌더링. 알파벳 언어(영어)와 표의문자 언어(중국어) 모두 고충실도 지원
- Consistent Image Editing: 향상된 multi-task 학습 패러다임(T2I + I2I + TI2I)과 dual-encoding 메커니즘으로 의미적 일관성 + 시각적 충실도 동시 달성
- Strong Cross-Benchmark Performance: GenEval 0.91(RL 후), DPG 88.32, OneIG-Bench EN/ZH 최고점, GEdit/ImgEdit SOTA 달성
모델 아키텍처
전체 구조 (3개 핵심 컴포넌트)
- MLLM (Qwen2.5-VL): 조건 인코더로 텍스트/이미지 입력의 특징 추출. 언어-시각 공간이 이미 정렬되어 있어 T2I에 적합. 마지막 레이어 hidden state의 latent을 사용
- VAE: 이미지 토크나이저. 단일 인코더 + 이중 디코더 아키텍처(이미지/비디오 호환). Wan 2.1-VAE의 인코더를 동결하고 이미지 디코더만 파인튜닝. 텍스트가 많은 이미지(PDF, PPT, 포스터)로 학습하여 소형 텍스트 재구성 능력 강화
- MMDiT (20B 파라미터): 60개 레이어의 Multimodal Diffusion Transformer. 텍스트와 이미지의 결합 분포를 모델링하는 backbone
MSRoPE (Multimodal Scalable RoPE)
새로운 위치 인코딩 방식:
- 기존 MMDiT: 텍스트 토큰을 flatten된 이미지 위치 뒤에 직접 연결 → 텍스트와 이미지 토큰 구분 어려움
- Seedream 3.0의 Scaling RoPE: 이미지 중앙에서 시작하지만 텍스트-이미지 토큰이 같은 행에서 동형(isomorphic)
- MSRoPE: 텍스트를 이미지 그리드의 **대각선(diagonal)**을 따라 배치. 이미지 쪽에서는 해상도 스케일링 이점을 유지하면서 텍스트 쪽에서는 1D-RoPE와 기능적으로 동등
모델 구성
| 컴포넌트 | 레이어 수 | 파라미터 |
|---|---|---|
| ViT (VLM) | 32 | 7B (전체 VLM) |
| LLM (VLM) | 28 | |
| VAE Encoder | 11 | 54M |
| VAE Decoder | 15 | 73M |
| MMDiT | 60 | 20B |
데이터 파이프라인
데이터 수집 (수십억 image-text 쌍)
4개 주요 도메인:
- Nature (~55%): 객체, 풍경, 동물, 음식 등 범용 이미지
- Design (~27%): 포스터, UI, PPT, 디지털 아트 — 텍스트 렌더링 학습에 핵심
- People (~13%): 초상화, 스포츠, 인간 활동
- Synthetic Data (~5%): 제어된 텍스트 렌더링 기술로 합성 (AI 생성 이미지 제외)
7단계 데이터 필터링 파이프라인
- S1 (초기 정제): 깨진 파일, 저해상도(<256p), 중복, NSFW 제거
- S2 (이미지 품질): 회전/블러/과노출/저엔트로피/고텍스처 이미지 제거
- S3 (텍스트-이미지 정렬): Raw/Recaption/Fused 캡션 분리, Chinese CLIP + SigLIP 2 필터로 불일치 제거
- S4 (텍스트 렌더링 강화): 영어/중국어/기타/비텍스트 분리, 합성 데이터 도입
- S5 (고해상도 정제): 640p 해상도로 전환, 이미지 품질/미학/워터마크 필터
- S6 (카테고리 균형): General/Portrait/TextRendering 재분류, 초상화 보강
- S7 (다중 해상도 학습): 640p + 1328p 균형 학습, WordNet 기반 계층적 분류
데이터 합성 (텍스트 렌더링 강화)
3가지 상호 보완적 전략:
- Pure Rendering: 단순 배경 위에 대규모 코퍼스 텍스트 렌더링 — 글자 인식 기초 학습
- Compositional Rendering: 현실 장면에 합성 텍스트 임베딩 + Qwen-VL로 캡션 생성 — 문맥 내 텍스트 이해
- Complex Rendering: PPT/UI 템플릿 기반 프로그래밍 편집 — 복잡 레이아웃 + 다중 행 텍스트 + 폰트/색상 제어 학습
학습 전략
사전 학습
Flow Matching 목적함수: $$x_t = tx_0 + (1-t)x_1, \quad v_t = x_0 - x_1$$ $$\mathcal{L} = \mathbb{E}\left[|v_\theta(x_t, t, h) - v_t|^2\right]$$
여기서 $x_0$는 VAE 인코딩된 이미지 latent, $x_1 \sim \mathcal{N}(0, I)$은 노이즈, $h = \phi(S)$는 MLLM에서 추출한 조건 latent.
Producer-Consumer 프레임워크: Ray 기반 비동기 구조로 데이터 전처리(Producer: VAE 인코딩, 데이터 I/O)와 모델 학습(Consumer: Megatron-LM, 4-way tensor parallelism) 분리. 학습 중단 없이 데이터 파이프라인 업데이트 가능.
분산 학습 최적화: Activation checkpointing은 메모리 11.3% 절약이지만 iteration 시간 3.75배 증가 → 비활성화하고 분산 옵티마이저만 사용. All-gather는 bf16, gradient reduce-scatter는 fp32.
Progressive Training 전략:
- 해상도: 256p → 640p → 1328p
- 텍스트: 비텍스트 → 텍스트 포함 이미지
- 데이터 품질: 대규모 → 정제된 데이터
- 분포: 불균형 → 균형
- 합성 데이터: 후반부에 도입
Post-training
SFT: 계층적 의미 카테고리 데이터셋으로 현실감과 디테일 강화
DPO (Direct Preference Optimization): Flow Matching 기반 DPO. 같은 프롬프트로 다수 이미지 생성 후 인간 평가자가 최선/최악 선택. 대규모 오프라인 선호도 학습에 활용.
GRPO (Group Relative Policy Optimization): Flow-GRPO 프레임워크로 소규모 세밀 조정. ODE 샘플링은 무작위성이 없어 탐색에 부적합 → SDE 프로세스로 재정의: $$dx_t = \left(v_t + \frac{\sigma_t^2}{2t}(x_t + (1-t)v_t)\right)dt + \sigma_t dw$$
Multi-task Training (이미지 편집)
- Dual Encoding: 입력 이미지를 (1) Qwen2.5-VL로 의미적 특징 추출 + (2) VAE 인코더로 재구성 특징 추출 → 두 표현을 MMDiT에 공동 입력
- MSRoPE 확장: frame 차원을 추가하여 편집 전/후 이미지 구분
- T2I + I2I 재구성 + TI2I를 통합 latent 공간에서 학습 → Qwen2.5-VL과 MMDiT 간 latent 표현 정렬
- MLLM의 시맨틱 임베딩 → instruction following 향상, VAE의 픽셀 레벨 임베딩 → 시각적 충실도 + 구조적 일관성 유지
실험 결과
Human Evaluation (AI Arena)
Elo 기반 오픈 벤치마킹 플랫폼, 5,000개 프롬프트, 200+ 평가자, 모델당 10,000+ 비교:
- Qwen-Image: 오픈소스 모델 중 유일하게 3위
- Imagen 4 Ultra Preview 대비 ~30 Elo 차이
- GPT Image 1 [High], FLUX.1 Kontext [Pro] 대비 30+ Elo 우위
Text-to-Image Generation
| 벤치마크 | Qwen-Image | GPT Image 1 | Seedream 3.0 |
|---|---|---|---|
| DPG Overall | 88.32 | 85.15 | 88.27 |
| GenEval (base) | 0.87 | 0.84 | 0.84 |
| GenEval (RL) | 0.91 | 0.84 | 0.84 |
| OneIG-EN Overall | 0.539 | 0.533 | 0.530 |
| OneIG-ZH Overall | 0.548 | 0.474 | 0.528 |
| TIIF Overall | 90.30/91.42 | 89.73/93.46 | 83.21/83.58 |
GenEval에서 RL 후 0.91로 리더보드 최초 0.9 초과.
텍스트 렌더링
| 벤치마크 | Qwen-Image | GPT Image 1 | Seedream 3.0 |
|---|---|---|---|
| CVTG-2K Word Acc | 0.8288 | 0.8569 | 0.5924 |
| ChineseWord Overall | 58.30 | 36.14 | 33.05 |
| LongText-Bench EN | 0.943 | 0.956 | 0.896 |
| LongText-Bench ZH | 0.946 | 0.619 | 0.878 |
- 중국어 텍스트 렌더링에서 압도적 우위 (GPT Image 1 대비 +22.16%p, Seedream 3.0 대비 +25.25%p)
- 영어 텍스트는 GPT Image 1과 근접하거나 약간 열세
- 중국어 긴 텍스트(LongText-Bench ZH)에서 0.946으로 GPT Image 1(0.619)을 크게 상회
Image Editing
| 벤치마크 | Qwen-Image | GPT Image 1 | FLUX.1 Kontext |
|---|---|---|---|
| GEdit-EN Overall | 7.56 | 7.53 | 6.56 |
| GEdit-CN Overall | 7.52 | 7.30 | 1.23 |
| ImgEdit Overall | 4.27 | 4.20 | 4.00 |
GEdit 중국어에서 FLUX.1 Kontext는 1.23으로 중국어 능력 부재를 보여줌.
Novel View Synthesis & Depth Estimation
- GSO 데이터셋: PSNR 15.11, SSIM 0.884, LPIPS 0.153으로 전문 3D 모델(CRM: 15.93, 0.891, 0.152)에 근접
- Depth Estimation: 전문 판별 모델에 근접하는 성능. 생성적 이해(generative understanding) 가능성 검증
VAE 성능
| VAE | ImageNet PSNR | Text PSNR |
|---|---|---|
| Qwen-Image-VAE | 33.42 | 36.63 |
| Hunyuan-VAE | 33.21 | 32.83 |
| FLUX-VAE | 32.84 | 32.65 |
디코더만 파인튜닝(인코더 19M, 디코더 25M 활성화)했음에도 텍스트 재구성에서 큰 격차 (36.63 vs 32.83). 이것이 텍스트 렌더링의 기반이 됨.
한계 및 향후 방향
한계:
- VAE가 비디오 VAE(Wan 2.1) 기반이라 이미지 전용 대비 모델링 복잡도 증가
- 20B MMDiT + 7B VLM으로 추론 비용이 높음
- 중국어 외 비알파벳 언어(일본어, 한국어, 아랍어 등) 렌더링 성능은 미검증
- AI Arena에서 Imagen 4 Ultra Preview 대비 ~30 Elo 열세
향후 방향:
- VLUI (Vision-Language User Interface): 텍스트 기반 LUI를 넘어 시각-언어 통합 인터페이스 구현
- 비디오 생성 확장: 비디오 VAE 이미 채택되어 있어 자연스러운 확장 가능
- 이해-생성 통합: Qwen2.5-VL(이해) + Qwen-Image(생성)를 결합한 “Visual-Language Omnisystem” — 인지, 추론, 생성이 통합된 차세대 멀티모달 AI
참고문헌
- Stable Diffusion (LDM) - Rombach et al., 2021
- Scaling Rectified Flow Transformers (SD3/MMDiT) - Esser et al., 2024
- Qwen2.5-VL - Bai et al., 2025
- FLUX.1 Kontext - Labs et al., 2025
- Seedream 3.0 - Gao et al., 2025
- Flow-GRPO - Liu et al., 2025
- DPO (Direct Preference Optimization) - Rafailov et al., 2023
- GRPO (Group Relative Policy Optimization) - Shao et al., 2024