Qwen-Image Technical Report 요약

🤖 AI Summary Notice 이 글은 AI(Claude)가 논문을 읽고 작성한 요약입니다. 부정확한 내용이 있을 수 있으니, 정확한 정보는 원문을 참고해주세요.

TL;DR

Qwen-Image는 Alibaba Qwen 시리즈의 이미지 생성 파운데이션 모델로, 복잡한 텍스트 렌더링(특히 중국어)과 정밀한 이미지 편집에서 SOTA를 달성했다. Qwen2.5-VL을 조건 인코더로, 20B MMDiT를 backbone으로 사용하며, 새로운 MSRoPE 위치 인코딩, 7단계 데이터 필터링 파이프라인, 3단계 텍스트 합성 전략, dual-encoding 편집 메커니즘을 도입했다. GenEval 0.91, 중국어 텍스트 렌더링에서 GPT Image 1 대비 22%p 우위, GEdit/ImgEdit 편집 벤치마크 1위를 기록하며, 오픈소스 모델로서 상용 모델과 경쟁력 있는 성능을 보여준다.

저자: Qwen Team (Alibaba) 발행년도: 2025 링크: https://arxiv.org/abs/2508.02324

문제 정의

최신 이미지 생성 모델에도 불구하고 두 가지 핵심 과제가 남아 있었다:

복잡한 텍스트 렌더링의 한계: GPT Image 1, Seedream 3.0 같은 SOTA 상용 모델도 다중 행 텍스트, 비알파벳 언어(특히 중국어), 텍스트-이미지 통합 작업에서 실패. 특히 표의문자(logographic) 언어인 중국어는 수천 개의 글자가 long-tail 분포를 가져 자연 이미지 데이터만으로는 충분한 학습이 불가능.
이미지 편집의 일관성 문제: (i) 시각적 일관성 — 편집 대상 외의 영역이 변경되는 문제 (예: 머리색 변경 시 얼굴 디테일 변경), (ii) 의미적 일관성 — 구조적 변경 시 정체성과 장면 일관성 유지 (예: 포즈 변경 시 의상/배경 유지).

핵심 기여

Superior Text Rendering: 다중 행 레이아웃, 문단 수준 의미론, 세밀한 디테일 포함한 복잡 텍스트 렌더링. 알파벳 언어(영어)와 표의문자 언어(중국어) 모두 고충실도 지원
Consistent Image Editing: 향상된 multi-task 학습 패러다임(T2I + I2I + TI2I)과 dual-encoding 메커니즘으로 의미적 일관성 + 시각적 충실도 동시 달성
Strong Cross-Benchmark Performance: GenEval 0.91(RL 후), DPG 88.32, OneIG-Bench EN/ZH 최고점, GEdit/ImgEdit SOTA 달성

모델 아키텍처

전체 구조 (3개 핵심 컴포넌트)

MLLM (Qwen2.5-VL): 조건 인코더로 텍스트/이미지 입력의 특징 추출. 언어-시각 공간이 이미 정렬되어 있어 T2I에 적합. 마지막 레이어 hidden state의 latent을 사용
VAE: 이미지 토크나이저. 단일 인코더 + 이중 디코더 아키텍처(이미지/비디오 호환). Wan 2.1-VAE의 인코더를 동결하고 이미지 디코더만 파인튜닝. 텍스트가 많은 이미지(PDF, PPT, 포스터)로 학습하여 소형 텍스트 재구성 능력 강화
MMDiT (20B 파라미터): 60개 레이어의 Multimodal Diffusion Transformer. 텍스트와 이미지의 결합 분포를 모델링하는 backbone

MSRoPE (Multimodal Scalable RoPE)

새로운 위치 인코딩 방식:

기존 MMDiT: 텍스트 토큰을 flatten된 이미지 위치 뒤에 직접 연결 → 텍스트와 이미지 토큰 구분 어려움
Seedream 3.0의 Scaling RoPE: 이미지 중앙에서 시작하지만 텍스트-이미지 토큰이 같은 행에서 동형(isomorphic)
MSRoPE: 텍스트를 이미지 그리드의 **대각선(diagonal)**을 따라 배치. 이미지 쪽에서는 해상도 스케일링 이점을 유지하면서 텍스트 쪽에서는 1D-RoPE와 기능적으로 동등

모델 구성

컴포넌트	레이어 수	파라미터
ViT (VLM)	32	7B (전체 VLM)
LLM (VLM)	28
VAE Encoder	11	54M
VAE Decoder	15	73M
MMDiT	60	20B

데이터 파이프라인

데이터 수집 (수십억 image-text 쌍)

4개 주요 도메인:

Nature (~55%): 객체, 풍경, 동물, 음식 등 범용 이미지
Design (~27%): 포스터, UI, PPT, 디지털 아트 — 텍스트 렌더링 학습에 핵심
People (~13%): 초상화, 스포츠, 인간 활동
Synthetic Data (~5%): 제어된 텍스트 렌더링 기술로 합성 (AI 생성 이미지 제외)

7단계 데이터 필터링 파이프라인

S1 (초기 정제): 깨진 파일, 저해상도(<256p), 중복, NSFW 제거
S2 (이미지 품질): 회전/블러/과노출/저엔트로피/고텍스처 이미지 제거
S3 (텍스트-이미지 정렬): Raw/Recaption/Fused 캡션 분리, Chinese CLIP + SigLIP 2 필터로 불일치 제거
S4 (텍스트 렌더링 강화): 영어/중국어/기타/비텍스트 분리, 합성 데이터 도입
S5 (고해상도 정제): 640p 해상도로 전환, 이미지 품질/미학/워터마크 필터
S6 (카테고리 균형): General/Portrait/TextRendering 재분류, 초상화 보강
S7 (다중 해상도 학습): 640p + 1328p 균형 학습, WordNet 기반 계층적 분류

데이터 합성 (텍스트 렌더링 강화)

3가지 상호 보완적 전략:

Pure Rendering: 단순 배경 위에 대규모 코퍼스 텍스트 렌더링 — 글자 인식 기초 학습
Compositional Rendering: 현실 장면에 합성 텍스트 임베딩 + Qwen-VL로 캡션 생성 — 문맥 내 텍스트 이해
Complex Rendering: PPT/UI 템플릿 기반 프로그래밍 편집 — 복잡 레이아웃 + 다중 행 텍스트 + 폰트/색상 제어 학습

학습 전략

사전 학습

Flow Matching 목적함수: $$x_t = tx_0 + (1-t)x_1, \quad v_t = x_0 - x_1$$ $$\mathcal{L} = \mathbb{E}\left[|v_\theta(x_t, t, h) - v_t|^2\right]$$

여기서 $x_0$는 VAE 인코딩된 이미지 latent, $x_1 \sim \mathcal{N}(0, I)$은 노이즈, $h = \phi(S)$는 MLLM에서 추출한 조건 latent.

Producer-Consumer 프레임워크: Ray 기반 비동기 구조로 데이터 전처리(Producer: VAE 인코딩, 데이터 I/O)와 모델 학습(Consumer: Megatron-LM, 4-way tensor parallelism) 분리. 학습 중단 없이 데이터 파이프라인 업데이트 가능.

분산 학습 최적화: Activation checkpointing은 메모리 11.3% 절약이지만 iteration 시간 3.75배 증가 → 비활성화하고 분산 옵티마이저만 사용. All-gather는 bf16, gradient reduce-scatter는 fp32.

Progressive Training 전략:

해상도: 256p → 640p → 1328p
텍스트: 비텍스트 → 텍스트 포함 이미지
데이터 품질: 대규모 → 정제된 데이터
분포: 불균형 → 균형
합성 데이터: 후반부에 도입

Post-training

SFT: 계층적 의미 카테고리 데이터셋으로 현실감과 디테일 강화

DPO (Direct Preference Optimization): Flow Matching 기반 DPO. 같은 프롬프트로 다수 이미지 생성 후 인간 평가자가 최선/최악 선택. 대규모 오프라인 선호도 학습에 활용.

GRPO (Group Relative Policy Optimization): Flow-GRPO 프레임워크로 소규모 세밀 조정. ODE 샘플링은 무작위성이 없어 탐색에 부적합 → SDE 프로세스로 재정의: $$dx_t = \left(v_t + \frac{\sigma_t^2}{2t}(x_t + (1-t)v_t)\right)dt + \sigma_t dw$$

Multi-task Training (이미지 편집)

Dual Encoding: 입력 이미지를 (1) Qwen2.5-VL로 의미적 특징 추출 + (2) VAE 인코더로 재구성 특징 추출 → 두 표현을 MMDiT에 공동 입력
MSRoPE 확장: frame 차원을 추가하여 편집 전/후 이미지 구분
T2I + I2I 재구성 + TI2I를 통합 latent 공간에서 학습 → Qwen2.5-VL과 MMDiT 간 latent 표현 정렬
MLLM의 시맨틱 임베딩 → instruction following 향상, VAE의 픽셀 레벨 임베딩 → 시각적 충실도 + 구조적 일관성 유지

실험 결과

Human Evaluation (AI Arena)

Elo 기반 오픈 벤치마킹 플랫폼, 5,000개 프롬프트, 200+ 평가자, 모델당 10,000+ 비교:

Qwen-Image: 오픈소스 모델 중 유일하게 3위
Imagen 4 Ultra Preview 대비 ~30 Elo 차이
GPT Image 1 [High], FLUX.1 Kontext [Pro] 대비 30+ Elo 우위

Text-to-Image Generation

벤치마크	Qwen-Image	GPT Image 1	Seedream 3.0
DPG Overall	88.32	85.15	88.27
GenEval (base)	0.87	0.84	0.84
GenEval (RL)	0.91	0.84	0.84
OneIG-EN Overall	0.539	0.533	0.530
OneIG-ZH Overall	0.548	0.474	0.528
TIIF Overall	90.30/91.42	89.73/93.46	83.21/83.58

GenEval에서 RL 후 0.91로 리더보드 최초 0.9 초과.

텍스트 렌더링

벤치마크	Qwen-Image	GPT Image 1	Seedream 3.0
CVTG-2K Word Acc	0.8288	0.8569	0.5924
ChineseWord Overall	58.30	36.14	33.05
LongText-Bench EN	0.943	0.956	0.896
LongText-Bench ZH	0.946	0.619	0.878

중국어 텍스트 렌더링에서 압도적 우위 (GPT Image 1 대비 +22.16%p, Seedream 3.0 대비 +25.25%p)
영어 텍스트는 GPT Image 1과 근접하거나 약간 열세
중국어 긴 텍스트(LongText-Bench ZH)에서 0.946으로 GPT Image 1(0.619)을 크게 상회

Image Editing

벤치마크	Qwen-Image	GPT Image 1	FLUX.1 Kontext
GEdit-EN Overall	7.56	7.53	6.56
GEdit-CN Overall	7.52	7.30	1.23
ImgEdit Overall	4.27	4.20	4.00

GEdit 중국어에서 FLUX.1 Kontext는 1.23으로 중국어 능력 부재를 보여줌.

Novel View Synthesis & Depth Estimation

GSO 데이터셋: PSNR 15.11, SSIM 0.884, LPIPS 0.153으로 전문 3D 모델(CRM: 15.93, 0.891, 0.152)에 근접
Depth Estimation: 전문 판별 모델에 근접하는 성능. 생성적 이해(generative understanding) 가능성 검증

VAE 성능

VAE	ImageNet PSNR	Text PSNR
Qwen-Image-VAE	33.42	36.63
Hunyuan-VAE	33.21	32.83
FLUX-VAE	32.84	32.65

디코더만 파인튜닝(인코더 19M, 디코더 25M 활성화)했음에도 텍스트 재구성에서 큰 격차 (36.63 vs 32.83). 이것이 텍스트 렌더링의 기반이 됨.

한계 및 향후 방향

한계:

VAE가 비디오 VAE(Wan 2.1) 기반이라 이미지 전용 대비 모델링 복잡도 증가
20B MMDiT + 7B VLM으로 추론 비용이 높음
중국어 외 비알파벳 언어(일본어, 한국어, 아랍어 등) 렌더링 성능은 미검증
AI Arena에서 Imagen 4 Ultra Preview 대비 ~30 Elo 열세

향후 방향:

VLUI (Vision-Language User Interface): 텍스트 기반 LUI를 넘어 시각-언어 통합 인터페이스 구현
비디오 생성 확장: 비디오 VAE 이미 채택되어 있어 자연스러운 확장 가능
이해-생성 통합: Qwen2.5-VL(이해) + Qwen-Image(생성)를 결합한 “Visual-Language Omnisystem” — 인지, 추론, 생성이 통합된 차세대 멀티모달 AI

참고문헌

Stable Diffusion (LDM) - Rombach et al., 2021
Scaling Rectified Flow Transformers (SD3/MMDiT) - Esser et al., 2024
Qwen2.5-VL - Bai et al., 2025
FLUX.1 Kontext - Labs et al., 2025
Seedream 3.0 - Gao et al., 2025
Flow-GRPO - Liu et al., 2025
DPO (Direct Preference Optimization) - Rafailov et al., 2023
GRPO (Group Relative Policy Optimization) - Shao et al., 2024

TL;DR#

문제 정의#

핵심 기여#

모델 아키텍처#

전체 구조 (3개 핵심 컴포넌트)#

MSRoPE (Multimodal Scalable RoPE)#

모델 구성#

데이터 파이프라인#

데이터 수집 (수십억 image-text 쌍)#

7단계 데이터 필터링 파이프라인#

데이터 합성 (텍스트 렌더링 강화)#

학습 전략#

사전 학습#

Post-training#

Multi-task Training (이미지 편집)#

실험 결과#

Human Evaluation (AI Arena)#

Text-to-Image Generation#

텍스트 렌더링#

Image Editing#

Novel View Synthesis & Depth Estimation#

VAE 성능#

한계 및 향후 방향#

참고문헌#