본문 바로가기
IT New

TextToVideo SORA OpenAI

by wenect 2024. 2. 16.

OpenAI에서 텍스트로 비디오를 생성하는 AI모델을 만들어 냈습니다.

연구 기술
Sora는 정적인 노이즈처럼 보이는 비디오로 시작하여 여러 단계를 거쳐 노이즈를 제거하여 점차적으로 비디오를 변형시키는 확산 모델입니다.

Sora는 전체 비디오를 한 번에 생성하거나 생성된 비디오를 확장하여 더 길게 만들 수 있습니다. 한 번에 여러 프레임에 대한 모델 예측을 제공함으로써 피사체가 일시적으로 시야에서 사라질 때에도 동일하게 유지되어야 하는 어려운 문제를 해결했습니다.

GPT 모델과 유사하게 Sora는 변환기 아키텍처를 사용하여 뛰어난 확장 성능을 제공합니다.

우리는 비디오와 이미지를 패치라고 하는 더 작은 데이터 단위의 모음으로 표현하며, 각 패치는 GPT의 토큰과 유사합니다. 데이터를 표현하는 방법을 통합함으로써 다양한 기간, 해상도 및 종횡비에 걸쳐 이전보다 더 광범위한 시각적 데이터에 대한 확산 변환기를 교육할 수 있습니다.

Sora는 DALL·E 및 GPT 모델에 대한 과거 연구를 기반으로 합니다. 이는 시각적 훈련 데이터에 대해 매우 설명적인 캡션을 생성하는 DALL·E 3의 재캡션 기술을 사용합니다. 결과적으로, 모델은 생성된 비디오에서 사용자의 텍스트 지시를 보다 충실하게 따를 수 있습니다.

텍스트 지침만으로 비디오를 생성할 수 있을 뿐만 아니라 모델은 기존 정지 이미지를 가져와서 비디오를 생성하여 이미지의 내용을 작은 세부 사항까지 정확하게 주의 깊게 애니메이션화할 수 있습니다. 모델은 기존 비디오를 가져와 확장하거나 누락된 프레임을 채울 수도 있습니다. 기술 문서(오늘 후반에 공개)에서 자세히 알아보세요.

Sora는 실제 세계를 이해하고 시뮬레이션할 수 있는 모델의 기반 역할을 하며, 이 기능은 AGI 달성을 위한 중요한 이정표가 될 것이라고 믿습니다.

https://openai.com/sora

 

Sora: Creating video from text

The current model has weaknesses. It may struggle with accurately simulating the physics of a complex scene, and may not understand specific instances of cause and effect. For example, a person might take a bite out of a cookie, but afterward, the cookie m

openai.com

텍스트-비디오 모델인 Sora를 소개합니다. Sora는 시각적 품질을 유지하고 사용자의 메시지를 준수하면서 최대 1분 길이의 비디오를 생성할 수 있습니다.

댓글