본문 바로가기

AI148

Qwen-Image-Layered https://github.com/QwenLM/Qwen-Image-Layered GitHub - QwenLM/Qwen-Image-Layered: Qwen-Image-Layered: Layered Decomposition for Inherent EditablityQwen-Image-Layered: Layered Decomposition for Inherent Editablity - QwenLM/Qwen-Image-Layeredgithub.com이미지를 여러 개의 RGBA 레이어로 분해할 수 있는 모델인 Qwen-Image-Layered를 소개하게 되어 매우 기쁩니다 . 이러한 레이어 표현 방식은 이미지의 고유한 편집 가능성을 극대화합니다 . 각 레이어는 다른 콘텐츠에 영향을 주지 않고 독립적으로 조작할 수.. 2025. 12. 22.
SAM 3D Body and Object Meta(Facebook Research)에서 2025년 11월, SAM 3와 함께 공개한 'SAM 3D'SAM 3D는 단일 모델이 아니라, 목적에 따라 사물(Objects)과 신체(Body)를 위한 두 가지 모델로 나뉘어 공개되었습니다.1. 공식 GitHub 저장소용도에 따라 두 개의 저장소로 분리되어 있습니다.SAM 3D Objects (사물용):주소: https://github.com/facebookresearch/sam-3d-objectsSAM 3D Body (인체용):주소: https://github.com/facebookresearch/sam-3d-body2. SAM 3D의 핵심 특징기존의 SAM이 2D 이미지를 '분할(Segmentation)'하는 데 초점을 맞췄다면, SAM 3D는 단 한 .. 2025. 11. 22.
Diffusion-VLA: 로보틱스와 AI의 새로운 지평 https://diffusion-vla.github.io/static/videos/framework_gif.mp4Diffusion-VLA 프로젝트에 대해 소개하려고 합니다. 이 프로젝트는 비전-언어-행동(Vision-Language-Action, VLA) 모델에 확산(diffusion) 기술을 접목해 로봇 제어와 시각적 이해를 한 단계 끌어올린 흥미로운 연구입니다.Diffusion-VLA란?Diffusion-VLA는 시각적 입력(이미지)과 언어 명령을 결합해 정교한 행동을 생성하는 모델입니다. 기존 VLA 모델이 단순히 이미지와 텍스트를 기반으로 행동을 예측했다면, Diffusion-VLA는 확산 모델의 강력한 생성 능력을 활용해 더 정밀하고 복잡한 작업을 수행할 수 있습니다. 예를 들어, 로봇이 물체를.. 2025. 10. 19.
VibeVoice : 최첨단 오픈 소스 텍스트-음성 변환모델 VibeVoice는 텍스트에서 팟캐스트와 같이 표현력이 풍부하고 장문의 다중 화자 대화 오디오를 생성하도록 설계된 혁신적인 프레임워크입니다. 기존 텍스트 음성 변환(TTS) 시스템의 주요 과제, 특히 확장성, 화자 일관성, 자연스러운 턴테이킹(turn-taking) 문제를 해결합니다. VibeVoice의 핵심 혁신은 7.5Hz의 초저 프레임 속도로 작동하는 연속 음성 토크나이저(음향 및 의미 토크나이저)를 사용하는 데 있습니다. 이 토크나이저는 긴 시퀀스 처리 시 연산 효율을 크게 향상하는 동시에 오디오 충실도를 효과적으로 유지합니다. VibeVoice는 대규모 언어 모델(LLM)을 활용하여 텍스트 맥락과 대화 흐름을 이해하고, 확산 헤드를 통해 고충실도 음향 디테일을 생성하는 차세대 토큰 확산 프레임워.. 2025. 9. 7.