Flux Pro 1.0 / Pro 1.1 / dev / API / Local GPU 비교

Flux 모델/방식 비교를 시작하며

Midjourney와 Dall-E 등 폐쇄형 모델이 주를 이루던 시장에서 Stability AI가 Diffusion 모델 기반의 이미지 생성 모델들(Stable Diffusion, 이하 SD)을 오픈소스로 공개하며 큰 주목을 받았습니다. 이후 Black Forest Labs(이하, BFL)가 Flux라는 모델을 오픈소스로 공개했는데, 이 모델은 기존 SD 모델들과 비교해 더 정교한 제어가 가능하고 텍스트도 의도대로 생성되는 등 여러 면에서 개선된 성능을 보여주었습니다.

현재 이미지 생성 AI 시장은 전반적으로 높은 수준에 도달했으며, 각 모델마다 특화된 분야가 있어 용도에 맞는 모델을 직접 테스트해보고 선택하는 것이 좋습니다.

Midjourney로 시작된 이미지 생성 AI 시장이 2년 만에 성숙기에 접어든 것처럼, 영상 생성 AI도 비슷한 과정을 따를 것 같습니다. 2024년 6월을 기준으로 약 2년 후에는 누구나 쉽게 고품질 결과물을 얻을 수 있는 다양한 영상 생성 AI 모델들이 등장할 것으로 예상됩니다.

이번 포스트에서는 현존하는 모델 중 최고로 평가받는 Flux를 활용한 서비스 구축을 위해, 어떤 모델과 방식을 선택하는 것이 성능과 비용 측면에서 가장 효율적일지 살펴보겠습니다.

Flux 모델들의 이해

Flux는 크게 Dev(schnell)와 Pro 버전으로 나뉩니다. Dev 버전은 비상업적 용도의 오픈소스로 제공되며, Pro 버전은 더 향상된 성능을 제공하고 API 형태로 판매됩니다.

Flux의 버전별 특징은 다음과 같습니다
가격은 GPU 사용량을 기준으로 책정된 것으로 보이며, 실제 처리 시간에도 차이가 있습니다.

버전가격(USD)특징
Dev$0.025기본 모델, 제한된 데이터셋
Pro 1.0$0.05Dev와 동시 출시, 더 큰 데이터셋
Pro 1.1$0.04커뮤니티 피드백 반영, 성능 개선
Pro 1.1 Ultra$0.06초고해상도 전용

📢 라이센스 주의사항 Flux API를 직접 사용자에게 제공하는 것은 제한되어 있으나, 서비스 내 창작 과정의 일부로 활용하는 것은 허용됩니다.

📢 비교 확인사항 업스케일링 모델을 쓰는 경우가 아니고서는 이미지를 보는데에 있어서, 전체의 느낌을 확인하는 것이기 때문에, 전체적인 완성도에 있어서만 비교합니다.

비교

GPU 실행 스펙은 현재 개인용 상위 GPU인 RTX4090 24GB 입니다. API 실행 결과에 의하면 BFL에서 제공하는 GPU는 H100으로 예상됩니다. API의 결과 실행결과 범위가 조금 넓은 이유는 API 통신시 통신부분의 문제로 보입니다.
같은 속도로 딜레이 없이 제공하는 것이 중요하다고 한다면, API를 활용하는 것이 관리측면이나 비용측면에서도 효율적일 수 있습니다. 물론 테스트나 개발용으로는 RTX4090도 충분한 것으로 보입니다.

모델평균 처리 시간실행 결과 범위비용비고
Dev GPU17.35초±0.2초로컬 GPU로 실행
Dev API8.46초±0.8초$0.025
Pro 1.0 API12.94초±0.67초$0.05
Pro 1.1 API4.25초±0.62초$0.04가장 빠른 처리 속도
Pro 1.1 Ultra API9.42초±0.8초$0.06

📢 비교 결과물은 Dev Local GPU / Dev API / Pro 1.0 API / Pro 1.1 API / Pro 1.1 Ultra API 순으로 가로로 각4장씩 묵음입니다.

📢 게시글의 이미지는 썸네일 사이즈 입니다. 디테일하게 보고 싶으신 분들은 구글 드라이브 링크를 참고해주세요.

비교 1 : 풍경

사용된 프롬프트: A hyperrealistic, 35mm photograph of a cozy wooden cabin in a sunlit forest clearing at sunrise, with warm golden light streaming through the trees, soft mist on the ground, and intricate details in the foliage. High resolution, cinematic lighting, shallow depth of field, and vibrant colors.
테스트 결과, Dev와 Pro 버전들 간의 퀄리티 차이가 약간 있었으나, Pro 모델들 간의 차이는 육안으로는 확인하기 어려운 수준이었습니다. Dev 버전의 경우 일부 오브젝트에서 실사보다는 AI스러운 표현이 나왔습니다

비교 2 : 인물

사용된 프롬프트: A hyperrealistic, 35mm portrait photograph of a single woman wearing a flowing white dress and a wide-brimmed straw hat, standing in a sunlit meadow at golden hour. Cinematic lighting, shallow depth of field, warm golden highlights, vibrant colors, gentle breeze moving her hair, and intricate details in the fabric.
테스트 결과, Dev와 Pro 버전들 간의 퀄리티 차이가 거의 없었고, Pro 모델 중 Ultra는 오히려 육안으로 스케치가 된 듯 AI 같은 질감의 결과물이 나왔습니다.

비교 3 : 사물들

사용된 프롬프트: A hyperrealistic, 35mm photograph of a beautifully arranged furniture display in a modern furniture store during daylight. Cinematic lighting, shallow depth of field, warm natural highlights, vibrant colors, and intricate details in contemporary sofas, elegant chairs, stylish tables, decorative cushions, and surrounding interior elements.
테스트 결과, Dev와 Pro 버전들 간의 퀄리티 차이가 거의 없었으나, Pro 모델 중 Ultra가 차이가 느껴질 정도로 더 구체적인 표현이 나타나는 질감의 결과물이 나왔습니다.

결론

Dev와 Pro 사이의 퀄리티 차이는 생성하고자 하는 내용에 따라 약간의 차이가 있으나, Pro 모델의 결과물 퀄리티를 100%로 보았을 때 Dev 모델도 최소 90% 이상의 결과를 보여줍니다.
Pro 1.1 Ultra 모델은 BFL에서 고해상도 모델로 소개하고 있습니다. 일부 결과에서는 아쉬운 면이 있었지만, 대체로 더 구체적인 환경 표현과 디테일이 다른 모델들보다 우수했습니다. 특히 고해상도 이미지를 요청할 때 더 좋은 결과물을 기대할 수 있어 가치가 있어 보입니다.

API 사용 시 Dev 모델과 비교하면, Pro 1.1 모델은 약 1.6배의 가격으로 더 나은 성능과 2배 빠른 속도를 제공합니다.

개인적으로는 서비스 개발 시에는 Pro 1.1/Pro 1.1 Ultra API 모델을, 개발 테스트나 개인 사용 시에는 Dev API/Pro 1.1 Ultra API 또는 Dev 로컬 GPU(직접 실행)를 사용하는 것이 적합해 보입니다.
저는 제 서비스를 개발할 때에는 Pro 1.1을 사용할 것 같고, 테스트에는 여전히 Dev 모델을 로컬 GPU로 테스트하는 방식을 선택할 것 같습니다.

Leave a Comment