https://github.com/damo-vilab/i2vgen-xl
https://github.com/camenduru/I2VGen-XL-colab
https://twitter.com/i/status/1735339630986199233
비디오 합성은 최근 확산 모델의 급속한 발전에 힘입어 눈부신 발전을 이루었습니다. 그러나 의미론적 정확성, 명확성 및 시공간 연속성 측면에서 여전히 어려움을 겪고 있습니다. 이는 주로 잘 정렬된 텍스트-비디오 데이터의 부족과 비디오의 복잡한 고유 구조로 인해 발생하므로 모델이 의미론적 우수성과 질적 우수성을 동시에 보장하기 어렵습니다. 이 보고서에서는 이 두 요소를 분리하여 모델 성능을 향상시키고 정적 이미지를 중요한 지침의 한 형태로 활용하여 입력 데이터의 정렬을 보장하는 계단식 I2VGen-XL 접근 방식을 제안합니다. I2VGen-XL은 두 단계로 구성됩니다. i) 기본 단계는 두 개의 계층적 인코더를 사용하여 일관된 의미를 보장하고 입력 이미지의 콘텐츠를 보존하며, ii) 정제 단계는 추가 간단한 텍스트를 통합하여 비디오의 세부 사항을 향상시키고 해상도를 1280x720으로 설정하세요. 다양성을 향상시키기 위해 우리는 약 3,500만 개의 단일 촬영 텍스트-비디오 쌍과 60억 개의 텍스트-이미지 쌍을 수집하여 모델을 최적화합니다. 이를 통해 I2VGen-XL은 의미적 정확성, 세부 사항의 연속성 및 생성된 비디오의 명확성을 동시에 향상시킬 수 있습니다. 광범위한 실험을 통해 I2VGen-XL의 기본 원리를 조사하고 이를 다양한 데이터에 대한 효율성을 입증할 수 있는 현재 최고의 방법과 비교했습니다. 소스 코드와 모델은 여기에서 공개적으로 제공됩니다.
'AI > Generative Video' 카테고리의 다른 글
VLOGGER (0) | 2024.04.18 |
---|---|
DreaMoving (0) | 2023.12.17 |
CoDeF (0) | 2023.08.20 |
Runway Gen-2 image to video has been released! (0) | 2023.08.01 |
RERENDER A VIDEO: ZERO-SHOT TEXT-GUIDED VIDEO-TO-VIDEO TRANSLATION (0) | 2023.06.18 |
댓글