본문 바로가기

AI146

Diffusion-VLA: 로보틱스와 AI의 새로운 지평 https://diffusion-vla.github.io/static/videos/framework_gif.mp4Diffusion-VLA 프로젝트에 대해 소개하려고 합니다. 이 프로젝트는 비전-언어-행동(Vision-Language-Action, VLA) 모델에 확산(diffusion) 기술을 접목해 로봇 제어와 시각적 이해를 한 단계 끌어올린 흥미로운 연구입니다.Diffusion-VLA란?Diffusion-VLA는 시각적 입력(이미지)과 언어 명령을 결합해 정교한 행동을 생성하는 모델입니다. 기존 VLA 모델이 단순히 이미지와 텍스트를 기반으로 행동을 예측했다면, Diffusion-VLA는 확산 모델의 강력한 생성 능력을 활용해 더 정밀하고 복잡한 작업을 수행할 수 있습니다. 예를 들어, 로봇이 물체를.. 2025. 10. 19.
VibeVoice : 최첨단 오픈 소스 텍스트-음성 변환모델 VibeVoice는 텍스트에서 팟캐스트와 같이 표현력이 풍부하고 장문의 다중 화자 대화 오디오를 생성하도록 설계된 혁신적인 프레임워크입니다. 기존 텍스트 음성 변환(TTS) 시스템의 주요 과제, 특히 확장성, 화자 일관성, 자연스러운 턴테이킹(turn-taking) 문제를 해결합니다. VibeVoice의 핵심 혁신은 7.5Hz의 초저 프레임 속도로 작동하는 연속 음성 토크나이저(음향 및 의미 토크나이저)를 사용하는 데 있습니다. 이 토크나이저는 긴 시퀀스 처리 시 연산 효율을 크게 향상하는 동시에 오디오 충실도를 효과적으로 유지합니다. VibeVoice는 대규모 언어 모델(LLM)을 활용하여 텍스트 맥락과 대화 흐름을 이해하고, 확산 헤드를 통해 고충실도 음향 디테일을 생성하는 차세대 토큰 확산 프레임워.. 2025. 9. 7.
팔란티어의 AIPCon 7 컨퍼런스 팰런티어(Palantir)의 AIPCon 7 컨퍼런스 기조연설 및 고객 인터뷰 내용을 담고 있습니다. 팰런티어는 **인공지능 플랫폼(AIP)**을 통해 다양한 산업 분야의 고객들이 기업 운영 체제(OS)를 재구축하고 의사 결정 방식을 변화시키도록 돕는다고 강조합니다. 특히 탬파 종합 병원은 환자 치료를, 랜드오프로스트는 생산 및 공급망 최적화를, 허츠는 차량 및 인력 관리를, AIG는 상업 언더라이팅을, 미 국무부는 의료 프로그램 관리와 디지털화를, 노스롭 그루먼은 방위 산업 제조를, 카바나우는 건설 현장 운영을, 볼트는 온라인 결제를, 네브래스카 의학은 환자 흐름 및 역량 관리를 개선한 사례를 공유하며, 팰런티어 기술이 데이터 통합, 자동화, 그리고 인간 중심의 의사 결정을 어떻게 가능하게 하는지 보여.. 2025. 6. 13.
sesame.com 사람과 같은 대화 수준 https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo Crossing the uncanny valley of conversational voiceAt Sesame, our goal is to achieve “voice presence”—the magical quality that makes spoken interactions feel real, understood, and valued.www.sesame.com이 저장소는 단어 수준 타임스탬프와 화자 일기 기능을 사용해 빠른 자동 음성 인식(대형 v2에서 70배 실시간) 기능을 제공합니다.⚡️ whisper large-v2를 사용하여 70배 실시간 전사를 위한 일괄 추론🪶 f.. 2025. 3. 10.