본문 바로가기

분류 전체보기244

Virtual Tryon IDM-VTON AI 모델로 패션 상세 페이지 5분 만에 만드는 법본 논문에서는 사람과 의복을 각각 묘사하는 한 쌍의 이미지가 주어지면 선별된 의복을 입고 있는 사람의 이미지를 렌더링하는 이미지 기반 가상 시착을 고려합니다. 이전 작업에서는 가상 시착을 위해 기존 예시 기반 인페인팅 확산 모델을 적용하여 다른 방법(예: GAN 기반)에 비해 생성된 시각적 자연성을 향상시켰지만 의류의 정체성을 유지하지 못했습니다. 이러한 한계를 극복하기 위해 우리는 의류 충실도를 향상시키고 실제 가상 시착 이미지를 생성하는 새로운 확산 모델을 제안합니다. IDM-VTON이라는 우리의 방법은 두 가지 다른 모듈을 사용하여 의류 이미지의 의미를 인코딩합니다. 확산 모델의 기본 UNet이 주어지면 1) 시각적 인코더에서 추출된 상위 수준 의미.. 2024. 5. 7.
DepthAnything 이 연구는 강력한 단안 깊이 추정을 위한 매우 실용적인 솔루션인 Depth Anything을 제시합니다. 새로운 기술 모듈을 추구하지 않고 어떠한 상황에서도 모든 이미지를 다루는 단순하면서도 강력한 기반 모델을 구축하는 것을 목표로 합니다. 이를 위해 레이블이 없는 대규모 데이터(~62M)를 수집하고 자동으로 주석을 달기 위한 데이터 엔진을 설계하여 데이터 세트를 확장합니다. 이는 데이터 범위를 크게 확대하여 일반화 오류를 줄일 수 있습니다. 우리는 데이터 확장을 유망하게 만드는 두 가지 간단하면서도 효과적인 전략을 조사합니다. 첫째, 데이터 증강 도구를 활용하여 더욱 까다로운 최적화 목표가 생성됩니다. 이는 모델이 추가 시각적 지식을 적극적으로 찾고 강력한 표현을 얻도록 강제합니다. 둘째, 사전 훈련된.. 2024. 5. 7.
VLOGGER VLOGGER는 사람의 한 장의 이미지만으로도 음성에 기반한 비디오를 생성하는 새로운 방법입니다. 이 방법은 1) 사람의 움직임을 3D로 표현하는 확률적 diffusion 모델과 2) 얼굴과 몸의 표현을 통해 제어가 가능한 새로운 diffusion 기반 구조로 구성되어 있습니다. 기존 방법과 달리 각 사람의 트레이닝이 필요없고, 얼굴 인식이나 자르기가 없어도 전체 이미지를 만들며 다양한 시나리오 (몸통이 보이거나 사람의 특성이 다양한 경우 등) 에서도 적용가능합니다. MENTOR라는 새로운 데이터셋을 만들었는데, 이는 기존 데이터셋보다 10배 크고 (80만 명), 다양한 제스처가 포함되어 있습니다. 이를 통해 VLOGGER의 주요 기술적 기여도를 측정했습니다. VLOGGER는 이미지 퀄리티, 얼굴 인식 .. 2024. 4. 18.
Udio 음악을 생성해보자 구글에서 일냈다. https://www.udio.com/ Udio | Make your music Discover, create, and share music with the world. www.udio.com 2024. 4. 17.