🤖 AI Summary Notice 이 글은 AI(Claude)가 논문을 읽고 작성한 요약입니다. 부정확한 내용이 있을 수 있으니, 정확한 정보는 원문을 참고해주세요.

TL;DR

Qwen-Image는 Alibaba Qwen 시리즈의 이미지 생성 파운데이션 모델로, 복잡한 텍스트 렌더링(특히 중국어)과 정밀한 이미지 편집에서 SOTA를 달성했다. Qwen2.5-VL을 조건 인코더로, 20B MMDiT를 backbone으로 사용하며, 새로운 MSRoPE 위치 인코딩, 7단계 데이터 필터링 파이프라인, 3단계 텍스트 합성 전략, dual-encoding 편집 메커니즘을 도입했다. GenEval 0.91, 중국어 텍스트 렌더링에서 GPT Image 1 대비 22%p 우위, GEdit/ImgEdit 편집 벤치마크 1위를 기록하며, 오픈소스 모델로서 상용 모델과 경쟁력 있는 성능을 보여준다.

저자: Qwen Team (Alibaba) 발행년도: 2025 링크: https://arxiv.org/abs/2508.02324


문제 정의

최신 이미지 생성 모델에도 불구하고 두 가지 핵심 과제가 남아 있었다:

  1. 복잡한 텍스트 렌더링의 한계: GPT Image 1, Seedream 3.0 같은 SOTA 상용 모델도 다중 행 텍스트, 비알파벳 언어(특히 중국어), 텍스트-이미지 통합 작업에서 실패. 특히 표의문자(logographic) 언어인 중국어는 수천 개의 글자가 long-tail 분포를 가져 자연 이미지 데이터만으로는 충분한 학습이 불가능.

  2. 이미지 편집의 일관성 문제: (i) 시각적 일관성 — 편집 대상 외의 영역이 변경되는 문제 (예: 머리색 변경 시 얼굴 디테일 변경), (ii) 의미적 일관성 — 구조적 변경 시 정체성과 장면 일관성 유지 (예: 포즈 변경 시 의상/배경 유지).

핵심 기여

  1. Superior Text Rendering: 다중 행 레이아웃, 문단 수준 의미론, 세밀한 디테일 포함한 복잡 텍스트 렌더링. 알파벳 언어(영어)와 표의문자 언어(중국어) 모두 고충실도 지원
  2. Consistent Image Editing: 향상된 multi-task 학습 패러다임(T2I + I2I + TI2I)과 dual-encoding 메커니즘으로 의미적 일관성 + 시각적 충실도 동시 달성
  3. Strong Cross-Benchmark Performance: GenEval 0.91(RL 후), DPG 88.32, OneIG-Bench EN/ZH 최고점, GEdit/ImgEdit SOTA 달성

모델 아키텍처

전체 구조 (3개 핵심 컴포넌트)

  • MLLM (Qwen2.5-VL): 조건 인코더로 텍스트/이미지 입력의 특징 추출. 언어-시각 공간이 이미 정렬되어 있어 T2I에 적합. 마지막 레이어 hidden state의 latent을 사용
  • VAE: 이미지 토크나이저. 단일 인코더 + 이중 디코더 아키텍처(이미지/비디오 호환). Wan 2.1-VAE의 인코더를 동결하고 이미지 디코더만 파인튜닝. 텍스트가 많은 이미지(PDF, PPT, 포스터)로 학습하여 소형 텍스트 재구성 능력 강화
  • MMDiT (20B 파라미터): 60개 레이어의 Multimodal Diffusion Transformer. 텍스트와 이미지의 결합 분포를 모델링하는 backbone

MSRoPE (Multimodal Scalable RoPE)

새로운 위치 인코딩 방식:

  • 기존 MMDiT: 텍스트 토큰을 flatten된 이미지 위치 뒤에 직접 연결 → 텍스트와 이미지 토큰 구분 어려움
  • Seedream 3.0의 Scaling RoPE: 이미지 중앙에서 시작하지만 텍스트-이미지 토큰이 같은 행에서 동형(isomorphic)
  • MSRoPE: 텍스트를 이미지 그리드의 **대각선(diagonal)**을 따라 배치. 이미지 쪽에서는 해상도 스케일링 이점을 유지하면서 텍스트 쪽에서는 1D-RoPE와 기능적으로 동등

모델 구성

컴포넌트레이어 수파라미터
ViT (VLM)327B (전체 VLM)
LLM (VLM)28
VAE Encoder1154M
VAE Decoder1573M
MMDiT6020B

데이터 파이프라인

데이터 수집 (수십억 image-text 쌍)

4개 주요 도메인:

  • Nature (~55%): 객체, 풍경, 동물, 음식 등 범용 이미지
  • Design (~27%): 포스터, UI, PPT, 디지털 아트 — 텍스트 렌더링 학습에 핵심
  • People (~13%): 초상화, 스포츠, 인간 활동
  • Synthetic Data (~5%): 제어된 텍스트 렌더링 기술로 합성 (AI 생성 이미지 제외)

7단계 데이터 필터링 파이프라인

  • S1 (초기 정제): 깨진 파일, 저해상도(<256p), 중복, NSFW 제거
  • S2 (이미지 품질): 회전/블러/과노출/저엔트로피/고텍스처 이미지 제거
  • S3 (텍스트-이미지 정렬): Raw/Recaption/Fused 캡션 분리, Chinese CLIP + SigLIP 2 필터로 불일치 제거
  • S4 (텍스트 렌더링 강화): 영어/중국어/기타/비텍스트 분리, 합성 데이터 도입
  • S5 (고해상도 정제): 640p 해상도로 전환, 이미지 품질/미학/워터마크 필터
  • S6 (카테고리 균형): General/Portrait/TextRendering 재분류, 초상화 보강
  • S7 (다중 해상도 학습): 640p + 1328p 균형 학습, WordNet 기반 계층적 분류

데이터 합성 (텍스트 렌더링 강화)

3가지 상호 보완적 전략:

  1. Pure Rendering: 단순 배경 위에 대규모 코퍼스 텍스트 렌더링 — 글자 인식 기초 학습
  2. Compositional Rendering: 현실 장면에 합성 텍스트 임베딩 + Qwen-VL로 캡션 생성 — 문맥 내 텍스트 이해
  3. Complex Rendering: PPT/UI 템플릿 기반 프로그래밍 편집 — 복잡 레이아웃 + 다중 행 텍스트 + 폰트/색상 제어 학습

학습 전략

사전 학습

Flow Matching 목적함수: $$x_t = tx_0 + (1-t)x_1, \quad v_t = x_0 - x_1$$ $$\mathcal{L} = \mathbb{E}\left[|v_\theta(x_t, t, h) - v_t|^2\right]$$

여기서 $x_0$는 VAE 인코딩된 이미지 latent, $x_1 \sim \mathcal{N}(0, I)$은 노이즈, $h = \phi(S)$는 MLLM에서 추출한 조건 latent.

Producer-Consumer 프레임워크: Ray 기반 비동기 구조로 데이터 전처리(Producer: VAE 인코딩, 데이터 I/O)와 모델 학습(Consumer: Megatron-LM, 4-way tensor parallelism) 분리. 학습 중단 없이 데이터 파이프라인 업데이트 가능.

분산 학습 최적화: Activation checkpointing은 메모리 11.3% 절약이지만 iteration 시간 3.75배 증가 → 비활성화하고 분산 옵티마이저만 사용. All-gather는 bf16, gradient reduce-scatter는 fp32.

Progressive Training 전략:

  • 해상도: 256p → 640p → 1328p
  • 텍스트: 비텍스트 → 텍스트 포함 이미지
  • 데이터 품질: 대규모 → 정제된 데이터
  • 분포: 불균형 → 균형
  • 합성 데이터: 후반부에 도입

Post-training

SFT: 계층적 의미 카테고리 데이터셋으로 현실감과 디테일 강화

DPO (Direct Preference Optimization): Flow Matching 기반 DPO. 같은 프롬프트로 다수 이미지 생성 후 인간 평가자가 최선/최악 선택. 대규모 오프라인 선호도 학습에 활용.

GRPO (Group Relative Policy Optimization): Flow-GRPO 프레임워크로 소규모 세밀 조정. ODE 샘플링은 무작위성이 없어 탐색에 부적합 → SDE 프로세스로 재정의: $$dx_t = \left(v_t + \frac{\sigma_t^2}{2t}(x_t + (1-t)v_t)\right)dt + \sigma_t dw$$

Multi-task Training (이미지 편집)

  • Dual Encoding: 입력 이미지를 (1) Qwen2.5-VL로 의미적 특징 추출 + (2) VAE 인코더로 재구성 특징 추출 → 두 표현을 MMDiT에 공동 입력
  • MSRoPE 확장: frame 차원을 추가하여 편집 전/후 이미지 구분
  • T2I + I2I 재구성 + TI2I를 통합 latent 공간에서 학습 → Qwen2.5-VL과 MMDiT 간 latent 표현 정렬
  • MLLM의 시맨틱 임베딩 → instruction following 향상, VAE의 픽셀 레벨 임베딩 → 시각적 충실도 + 구조적 일관성 유지

실험 결과

Human Evaluation (AI Arena)

Elo 기반 오픈 벤치마킹 플랫폼, 5,000개 프롬프트, 200+ 평가자, 모델당 10,000+ 비교:

  • Qwen-Image: 오픈소스 모델 중 유일하게 3위
  • Imagen 4 Ultra Preview 대비 ~30 Elo 차이
  • GPT Image 1 [High], FLUX.1 Kontext [Pro] 대비 30+ Elo 우위

Text-to-Image Generation

벤치마크Qwen-ImageGPT Image 1Seedream 3.0
DPG Overall88.3285.1588.27
GenEval (base)0.870.840.84
GenEval (RL)0.910.840.84
OneIG-EN Overall0.5390.5330.530
OneIG-ZH Overall0.5480.4740.528
TIIF Overall90.30/91.4289.73/93.4683.21/83.58

GenEval에서 RL 후 0.91로 리더보드 최초 0.9 초과.

텍스트 렌더링

벤치마크Qwen-ImageGPT Image 1Seedream 3.0
CVTG-2K Word Acc0.82880.85690.5924
ChineseWord Overall58.3036.1433.05
LongText-Bench EN0.9430.9560.896
LongText-Bench ZH0.9460.6190.878
  • 중국어 텍스트 렌더링에서 압도적 우위 (GPT Image 1 대비 +22.16%p, Seedream 3.0 대비 +25.25%p)
  • 영어 텍스트는 GPT Image 1과 근접하거나 약간 열세
  • 중국어 긴 텍스트(LongText-Bench ZH)에서 0.946으로 GPT Image 1(0.619)을 크게 상회

Image Editing

벤치마크Qwen-ImageGPT Image 1FLUX.1 Kontext
GEdit-EN Overall7.567.536.56
GEdit-CN Overall7.527.301.23
ImgEdit Overall4.274.204.00

GEdit 중국어에서 FLUX.1 Kontext는 1.23으로 중국어 능력 부재를 보여줌.

Novel View Synthesis & Depth Estimation

  • GSO 데이터셋: PSNR 15.11, SSIM 0.884, LPIPS 0.153으로 전문 3D 모델(CRM: 15.93, 0.891, 0.152)에 근접
  • Depth Estimation: 전문 판별 모델에 근접하는 성능. 생성적 이해(generative understanding) 가능성 검증

VAE 성능

VAEImageNet PSNRText PSNR
Qwen-Image-VAE33.4236.63
Hunyuan-VAE33.2132.83
FLUX-VAE32.8432.65

디코더만 파인튜닝(인코더 19M, 디코더 25M 활성화)했음에도 텍스트 재구성에서 큰 격차 (36.63 vs 32.83). 이것이 텍스트 렌더링의 기반이 됨.

한계 및 향후 방향

한계:

  • VAE가 비디오 VAE(Wan 2.1) 기반이라 이미지 전용 대비 모델링 복잡도 증가
  • 20B MMDiT + 7B VLM으로 추론 비용이 높음
  • 중국어 외 비알파벳 언어(일본어, 한국어, 아랍어 등) 렌더링 성능은 미검증
  • AI Arena에서 Imagen 4 Ultra Preview 대비 ~30 Elo 열세

향후 방향:

  • VLUI (Vision-Language User Interface): 텍스트 기반 LUI를 넘어 시각-언어 통합 인터페이스 구현
  • 비디오 생성 확장: 비디오 VAE 이미 채택되어 있어 자연스러운 확장 가능
  • 이해-생성 통합: Qwen2.5-VL(이해) + Qwen-Image(생성)를 결합한 “Visual-Language Omnisystem” — 인지, 추론, 생성이 통합된 차세대 멀티모달 AI

참고문헌