Qwen-Image Technical Report ์์ฝ
๐ค AI Summary Notice ์ด ๊ธ์ AI(Claude)๊ฐ ๋ ผ๋ฌธ์ ์ฝ๊ณ ์์ฑํ ์์ฝ์ ๋๋ค. ๋ถ์ ํํ ๋ด์ฉ์ด ์์ ์ ์์ผ๋, ์ ํํ ์ ๋ณด๋ ์๋ฌธ์ ์ฐธ๊ณ ํด์ฃผ์ธ์. TL;DR Qwen-Image๋ Alibaba Qwen ์๋ฆฌ์ฆ์ ์ด๋ฏธ์ง ์์ฑ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ๋ก, ๋ณต์กํ ํ ์คํธ ๋ ๋๋ง(ํนํ ์ค๊ตญ์ด)๊ณผ ์ ๋ฐํ ์ด๋ฏธ์ง ํธ์ง์์ SOTA๋ฅผ ๋ฌ์ฑํ๋ค. Qwen2.5-VL์ ์กฐ๊ฑด ์ธ์ฝ๋๋ก, 20B MMDiT๋ฅผ backbone์ผ๋ก ์ฌ์ฉํ๋ฉฐ, ์๋ก์ด MSRoPE ์์น ์ธ์ฝ๋ฉ, 7๋จ๊ณ ๋ฐ์ดํฐ ํํฐ๋ง ํ์ดํ๋ผ์ธ, 3๋จ๊ณ ํ ์คํธ ํฉ์ฑ ์ ๋ต, dual-encoding ํธ์ง ๋ฉ์ปค๋์ฆ์ ๋์ ํ๋ค. GenEval 0.91, ์ค๊ตญ์ด ํ ์คํธ ๋ ๋๋ง์์ GPT Image 1 ๋๋น 22%p ์ฐ์, GEdit/ImgEdit ํธ์ง ๋ฒค์น๋งํฌ 1์๋ฅผ ๊ธฐ๋กํ๋ฉฐ, ์คํ์์ค ๋ชจ๋ธ๋ก์ ์์ฉ ๋ชจ๋ธ๊ณผ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ...