본문 바로가기
AI/Upscaling

Scaling up GANs for Text-to-Image Synthesis

by wenect 2023. 3. 14.

GigaGAN: 텍스트-이미지 합성을 위한 대규모 GAN

일반 텍스트-이미지 합성 작업을 위해 대규모 데이터 세트에서 GAN을 교육할 수도 있습니까? 우리는 Stable Diffusion v1.5, DALL·E 2 및 Parti-750M보다 낮은 FID를 달성하는 1B 매개변수 GigaGAN을 제시합니다. 0.13s에서 512px 출력을 생성하며, 확산 및 자동 회귀 모델보다 몇 배 더 빠르고, GAN의 분리되고 연속적이며 제어 가능한 잠재 공간을 상속합니다. 또한 텍스트-이미지 모델의 저해상도 출력에서 ​​4K 이미지를 생성할 수 있는 빠른 업샘플러를 교육합니다.

https://youtube.com/shorts/_eDwU-GQcKo

GigaGAN은 분리되고 연속적이며 제어 가능한 잠재 공간을 제공합니다.
특히 미세 스케일에서 다른 프롬프트를 적용하여 레이아웃을 유지하는 미세 스타일 제어를 달성할 수 있습니다.

GigaGAN으로 16메가픽셀 사진으로 업스케일링

당사의 GigaGAN 프레임워크는 효율적이고 고품질의 업샘플러를 교육하는 데에도 사용할 수 있습니다. 이는 실제 이미지 또는 확산과 같은 다른 텍스트-이미지 모델의 출력에 적용될 수 있습니다. GigaGAN은 3.66초 만에 4k 해상도의 초고해상도 이미지를 합성할 수 있습니다.

 

추상적인

텍스트-이미지 합성의 최근 성공은 전 세계를 강타했고 일반 대중의 상상력을 사로잡았습니다. 기술적인 관점에서 이것은 또한 생성 이미지 모델을 설계하기 위해 선호하는 아키텍처에 급격한 변화를 가져왔습니다. GAN은 StyleGAN과 같은 기술을 사용하여 사실상의 선택이었습니다. DALL·E 2를 사용하면 자동 회귀 및 확산 모델이 밤새 대규모 생성 모델의 새로운 표준이 되었습니다. 이러한 급격한 변화는 근본적인 질문을 제기합니다. LAION과 같은 대규모 데이터 세트의 이점을 얻기 위해 GAN을 확장할 수 있습니까? StyleGAN 아키텍처의 용량을 순진하게 늘리면 빠르게 불안정해집니다. 이 한계를 훨씬 뛰어넘는 새로운 GAN 아키텍처인 GigaGAN을 소개합니다. 텍스트-이미지 합성을 위한 실행 가능한 옵션으로 GAN을 시연합니다. GigaGAN은 세 가지 주요 이점을 제공합니다. 첫째, 512px 이미지를 합성하는 데 0.13초 밖에 걸리지 않아 추론 시간이 훨씬 빨라졌습니다. 둘째, 3.66초 만에 1600만 화소의 고해상도 이미지를 합성할 수 있다. 마지막으로 GigaGAN은 잠재 보간, 스타일 혼합 및 벡터 산술 연산과 같은 다양한 잠재 공간 편집 응용 프로그램을 지원합니

https://youtube.com/shorts/KpaVP6cduhk?feature=share 

https://mingukkang.github.io/GigaGAN/

 

GigaGAN for Text-to-Image Synthesis. CVPR2023

a 1B parameter large scale GAN for text-to-image synthesis task. CVPR2023

mingukkang.github.io

 

'AI > Upscaling' 카테고리의 다른 글

Fooocus  (1) 2024.02.17
Upscaling 3 Tools  (2) 2023.03.28

댓글