대형 텍스트 대 이미지 확산 모델은 고품질 이미지를 생성하는 데 인상적인 능력을 보여주었습니다. 그러나 이러한 모델을 비디오 도메인에 적용할 때 비디오 프레임 전체에서 시간적 일관성을 보장하는 것은 여전히 어려운 과제입니다. 본 논문은 비디오에 이미지 모델을 적용하기 위한 새로운 제로샷 텍스트 가이드 비디오-비디오 변환 프레임워크를 제안합니다. 프레임워크에는 키 프레임 번역과 전체 비디오 번역의 두 부분이 포함됩니다. 첫 번째 부분은 적응된 확산 모델을 사용하여 키 프레임을 생성하고 계층적 교차 프레임 제약 조건을 적용하여 모양, 질감 및 색상의 일관성을 강화합니다. 두 번째 부분은 시간 인식 패치 일치 및 프레임 블렌딩을 사용하여 키 프레임을 다른 프레임으로 전파합니다. 우리의 프레임워크는 (재훈련이나 최적화 없이) 저렴한 비용으로 글로벌 스타일과 로컬 텍스처 시간적 일관성을 달성합니다. 적응은 기존 이미지 확산 기술과 호환되므로 LoRA로 특정 주제를 사용자 정의하고 ControlNet으로 추가 공간 안내를 도입하는 것과 같이 프레임워크가 이를 활용할 수 있습니다. 광범위한 실험 결과는 고품질 및 시간적으로 일관된 비디오를 렌더링하는 기존 방법에 비해 제안된 프레임워크의 효율성을 보여줍니다.
* 코드: 웹 데모 . 익명성 정
책에 따라 논문이 출판되면 전체 코드와 데이터를 공개할 것입니다.
https://anonymous-31415926.github.io/
https://huggingface.co/spaces/Anonymous-sub/Rerender
'AI > Generative Video' 카테고리의 다른 글
DreaMoving (0) | 2023.12.17 |
---|---|
CoDeF (0) | 2023.08.20 |
Runway Gen-2 image to video has been released! (0) | 2023.08.01 |
Dreamix Video AI (0) | 2023.04.17 |
사진으로 동영상 생성 (0) | 2023.03.09 |
댓글