QWEN Image Edit 모델은 Game Changer가 될 수 있을까?

최근 알리바바 클라우드(Alibaba Cloud)의 QWEN 팀이 20B QWEN Image 모델과, QWEN Image Edit 모델을 공개하면서, Open source 이미지 기술에 또 한 번 큰 진화로 평가받고 있습니다. 과연 QWEN이 공개한 모델들은 기존 Black Forest Labs 사의 FLUX 모델과 FLUX Kontext 모델을 대체할 차세대 AI 모델로 자리매김할 수 있을까요?

QWEN 이미지 모델

모델의 역사 및 제조사

Qwen 이미지 모델 시리즈는 Alibaba Cloud의 Qwen 팀이 개발한 대형 AI 모델 패밀리로, 2025년 8월에 Qwen ImageQwen Image Edit 모델이 공개되어, 텍스트 렌더링과 이미지 에디팅 양면에서 뛰어난 성능을 보이는 생성형 AI로 주목받았습니다.

“A 24-year-old Korean woman in a traditional hanbok, taking a selfie with an iPhone at night in front of Gyeongbokgung Palace, illuminated palace architecture glowing with warm golden lights, stone courtyard reflecting the light, her iPhone slightly raised in her hand, screen glow softly lighting her face, natural smile, realistic skin texture, detailed silk fabric of hanbok with vibrant colors, traditional braided hair with a binyeo hairpin, cinematic night photography, ultra-realistic lighting, DSLR quality, high resolution”

QWEN Image hanbok

QWEN Image

FLUX Dev Hanbok

FLUX.1 Dev

2024년 8월 출시되었던 FLUX 모델이 12B 수준에서도 매우 높은 이미지 퀄리티로 1년여간 왕좌의 자리를 내어주지 않았지만, Qwen Image 모델은 훨씬 큰 20B 파라미터 기반의 MMDiT(Multi‑Modal Diffusion Transformer) 아키텍처를 채택함으로써 FLUX보다 더욱 고난도 복합 텍스트 표현과 정밀 이미지 생성 능력을 갖추고 있습니다.

QWEN Image의 경우, MMDiT 아키텍처를 채택한 본 모델과 함께, Qwen2.5‑VL 텍스트 인코더를 활용하여, 사용자가 입력한 프롬프트의 문맥(context)을 보다 더 정확하게 이해하고, 이미지로 재현할 수 있습니다. 또한 한국적인 요소들에 대한 학습량도 더욱 풍부하여, 한복이나 경복궁 등 기존의 FLUX에서는 잘 표현되지 않던 부분들도 더욱 정교하게 표현할 수 있다는 장점이 있습니다.


QWEN 이미지 Edit 모델 소개 (Qwen-Image-Edit) & FLUX Kontext 비교 분석

Qwen Image Edit

2025년 8월 Qwen Image 공개 후 며칠 뒤 Qwen Image Edit 모델이 연이어 공개되었습니다. Image Edit 모델은 Qwen Image 모델을 기반으로, 사용자가 입력한 프롬프트를 이해하고, 해당 프롬프트의 지시에 따라 이미지를 편집하는 능력을 갖춘 고성능 이미지 편집 모델입니다.

Qwen Image Eidt 모델의 특장점:

  • Semantic Editing: 객체 회전, 스타일 전환, IP 창작 등 의미 단위의 변화도 문맥 일관성을 유지하면서 수행
  • Appearance Editing: 특정 영역만 수정하거나 추가/삭제하며 나머지 영역은 유지하는 정밀 편집 기능
  • 정확한 텍스트 편집: 영어와 중국어 텍스트를 원래 스타일·폰트·크기를 유지하며 추가, 삭제, 변경 가능

Qwen Image Edit vs. FLUX.1 Kontext

“Make her hold starbucks coffee”

Laight AI Model Soha

Original Image

QWEN Image Edit Result

QWEN Image Edit

FLUX Kontext Result

FLUX.1 Dev Kontext

위 이미지는 직접 학습 후 생성한 LAIGHT AI 여성 대표 모델 이미지를 기반으로 QWEN Image Edit 및 FLUX Kontext 모델로 편집을 진행한 결과를 비교하고 있습니다. Qwen Image Edit 모델은 기존의 오픈소스 이미지 편집 모델인 FLUX.1 Kontext와 기능상으로 동일하지만, 전반적인 이미지 편집 능력이 더 뛰어나다고 평가받고 있습니다. 특히, 상대적으로 우수한 프롬프트 이해도를 기반으로, 전반적으로 사용자의 의도를 더욱 잘 반영해 편집이 가능하다는 장점이 돋보입니다.

항목Qwen-Image-EditFLUX.1 Kontext
출시 시점2025년 8월2025년 5월
아키텍처 기반MMDiT + Qwen2.5‑VL + VAE 듀얼 입력Flow Matching 기반 통합
텍스트 편집 능력고정밀 (영어/중국어)언급 없음
반복 편집 시 일관성우수 (의미/외형 유지)특히 강점
속도 및 인터랙티브성실시간 가능 추정명시적 빠른 응답성 강조
강점 요약정밀 텍스트 편집, 의미/외형 통제반복 편집의 일관성과 속도

QWEN 모델 다운로드 및 실행 방법

현재 QWEN Image 모델 및 QWEN Image Edit 모델 모두 Open source로 공개되어 누구나 무료로 다운받아 사용이 가능합니다. ComfyUI에서도 공식적으로 두 모델을 지원하고 있기 때문에, 최신 버전으로 업데이트한 뒤, 해당 모델 및 워크플로우를 다운로드 받아 바로 실행해 볼 수 있습니다.

구분Qwen ImageQwen Image Edit
Diffusion Model다운로드다운로드
CLIP다운로드다운로드
VAE다운로드다운로드
Workflow바로가기바로가기

결론

Qwen Image 및 Qwen Image Edit는 Alibaba Qwen 팀이 만든 최신 생성형 AI 이미지 모델입니다. 20B 파라미터 기반의 MMDiT 아키텍처Qwen2.5-VL 텍스트 인코더 구조 덕분에, 복잡한 텍스트 표현과 정밀한 의미·외형 편집이 가능합니다. 특히 FLUX.1 Dev 모델 및 FLUX.1 Kontext 대비 더욱 정교한 프롬프트 이해도와 이미지 표현력을 갖춰 현존 오픈소스 AI 이미지 모델 중 가장 주목을 받고 있습니다. LAIGHT AI에서는 QWEN Image Edit와 같이 다양한 오픈소스 모델들을 적극 활용하여 최상의 이미지 편집 기술을 확보하고 있습니다.