본문 바로가기

AI147

SAM 3D Body and Object Meta(Facebook Research)에서 2025년 11월, SAM 3와 함께 공개한 'SAM 3D'SAM 3D는 단일 모델이 아니라, 목적에 따라 사물(Objects)과 신체(Body)를 위한 두 가지 모델로 나뉘어 공개되었습니다.1. 공식 GitHub 저장소용도에 따라 두 개의 저장소로 분리되어 있습니다.SAM 3D Objects (사물용):주소: https://github.com/facebookresearch/sam-3d-objectsSAM 3D Body (인체용):주소: https://github.com/facebookresearch/sam-3d-body2. SAM 3D의 핵심 특징기존의 SAM이 2D 이미지를 '분할(Segmentation)'하는 데 초점을 맞췄다면, SAM 3D는 단 한 .. 2025. 11. 22.
Diffusion-VLA: 로보틱스와 AI의 새로운 지평 https://diffusion-vla.github.io/static/videos/framework_gif.mp4Diffusion-VLA 프로젝트에 대해 소개하려고 합니다. 이 프로젝트는 비전-언어-행동(Vision-Language-Action, VLA) 모델에 확산(diffusion) 기술을 접목해 로봇 제어와 시각적 이해를 한 단계 끌어올린 흥미로운 연구입니다.Diffusion-VLA란?Diffusion-VLA는 시각적 입력(이미지)과 언어 명령을 결합해 정교한 행동을 생성하는 모델입니다. 기존 VLA 모델이 단순히 이미지와 텍스트를 기반으로 행동을 예측했다면, Diffusion-VLA는 확산 모델의 강력한 생성 능력을 활용해 더 정밀하고 복잡한 작업을 수행할 수 있습니다. 예를 들어, 로봇이 물체를.. 2025. 10. 19.
VibeVoice : 최첨단 오픈 소스 텍스트-음성 변환모델 VibeVoice는 텍스트에서 팟캐스트와 같이 표현력이 풍부하고 장문의 다중 화자 대화 오디오를 생성하도록 설계된 혁신적인 프레임워크입니다. 기존 텍스트 음성 변환(TTS) 시스템의 주요 과제, 특히 확장성, 화자 일관성, 자연스러운 턴테이킹(turn-taking) 문제를 해결합니다. VibeVoice의 핵심 혁신은 7.5Hz의 초저 프레임 속도로 작동하는 연속 음성 토크나이저(음향 및 의미 토크나이저)를 사용하는 데 있습니다. 이 토크나이저는 긴 시퀀스 처리 시 연산 효율을 크게 향상하는 동시에 오디오 충실도를 효과적으로 유지합니다. VibeVoice는 대규모 언어 모델(LLM)을 활용하여 텍스트 맥락과 대화 흐름을 이해하고, 확산 헤드를 통해 고충실도 음향 디테일을 생성하는 차세대 토큰 확산 프레임워.. 2025. 9. 7.
팔란티어의 AIPCon 7 컨퍼런스 팰런티어(Palantir)의 AIPCon 7 컨퍼런스 기조연설 및 고객 인터뷰 내용을 담고 있습니다. 팰런티어는 **인공지능 플랫폼(AIP)**을 통해 다양한 산업 분야의 고객들이 기업 운영 체제(OS)를 재구축하고 의사 결정 방식을 변화시키도록 돕는다고 강조합니다. 특히 탬파 종합 병원은 환자 치료를, 랜드오프로스트는 생산 및 공급망 최적화를, 허츠는 차량 및 인력 관리를, AIG는 상업 언더라이팅을, 미 국무부는 의료 프로그램 관리와 디지털화를, 노스롭 그루먼은 방위 산업 제조를, 카바나우는 건설 현장 운영을, 볼트는 온라인 결제를, 네브래스카 의학은 환자 흐름 및 역량 관리를 개선한 사례를 공유하며, 팰런티어 기술이 데이터 통합, 자동화, 그리고 인간 중심의 의사 결정을 어떻게 가능하게 하는지 보여.. 2025. 6. 13.