본문 바로가기

전체 글268

Qwen-Image-Layered https://github.com/QwenLM/Qwen-Image-Layered GitHub - QwenLM/Qwen-Image-Layered: Qwen-Image-Layered: Layered Decomposition for Inherent EditablityQwen-Image-Layered: Layered Decomposition for Inherent Editablity - QwenLM/Qwen-Image-Layeredgithub.com이미지를 여러 개의 RGBA 레이어로 분해할 수 있는 모델인 Qwen-Image-Layered를 소개하게 되어 매우 기쁩니다 . 이러한 레이어 표현 방식은 이미지의 고유한 편집 가능성을 극대화합니다 . 각 레이어는 다른 콘텐츠에 영향을 주지 않고 독립적으로 조작할 수.. 2025. 12. 22.
SAM 3D Body and Object Meta(Facebook Research)에서 2025년 11월, SAM 3와 함께 공개한 'SAM 3D'SAM 3D는 단일 모델이 아니라, 목적에 따라 사물(Objects)과 신체(Body)를 위한 두 가지 모델로 나뉘어 공개되었습니다.1. 공식 GitHub 저장소용도에 따라 두 개의 저장소로 분리되어 있습니다.SAM 3D Objects (사물용):주소: https://github.com/facebookresearch/sam-3d-objectsSAM 3D Body (인체용):주소: https://github.com/facebookresearch/sam-3d-body2. SAM 3D의 핵심 특징기존의 SAM이 2D 이미지를 '분할(Segmentation)'하는 데 초점을 맞췄다면, SAM 3D는 단 한 .. 2025. 11. 22.
Diffusion-VLA: 로보틱스와 AI의 새로운 지평 https://diffusion-vla.github.io/static/videos/framework_gif.mp4Diffusion-VLA 프로젝트에 대해 소개하려고 합니다. 이 프로젝트는 비전-언어-행동(Vision-Language-Action, VLA) 모델에 확산(diffusion) 기술을 접목해 로봇 제어와 시각적 이해를 한 단계 끌어올린 흥미로운 연구입니다.Diffusion-VLA란?Diffusion-VLA는 시각적 입력(이미지)과 언어 명령을 결합해 정교한 행동을 생성하는 모델입니다. 기존 VLA 모델이 단순히 이미지와 텍스트를 기반으로 행동을 예측했다면, Diffusion-VLA는 확산 모델의 강력한 생성 능력을 활용해 더 정밀하고 복잡한 작업을 수행할 수 있습니다. 예를 들어, 로봇이 물체를.. 2025. 10. 19.
Sora V2 초대 코드 정리, invite code Sora V2는 OpenAI의 비디오 생성 AI로, 초대 코드가 필요합니다. 아래는 웹과 X(트위터)에서 수집된 최신 초대 코드 목록입니다. 코드들은 만료될 수 있으니 빨리 시도해보세요. (미국/캐나다 외 지역에서는 VPN을 사용해 미국 위치로 설정하는 게 좋습니다.) 7ZDCNPToolfolio F9K2DMToolfolio, X 포스트작동 확인됨B8D3TBToolfolio 2J3MWHToolfolio CKRYDKToolfolio PHMM2KToolfolio C5R1Q3Toolfolio DNA2BWToolfolio SK9H6PMedium Y182D2X 포스트 (@stefnox)4개 스팟 한정AACQ74X 포스트 (@iamfakhrealam) A85AN6X 포스트 (@iamfakhrealam), X 포스.. 2025. 10. 5.