본문 바로가기

AI/STT, TTS10

sesame.com 사람과 같은 대화 수준 https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo Crossing the uncanny valley of conversational voiceAt Sesame, our goal is to achieve “voice presence”—the magical quality that makes spoken interactions feel real, understood, and valued.www.sesame.com이 저장소는 단어 수준 타임스탬프와 화자 일기 기능을 사용해 빠른 자동 음성 인식(대형 v2에서 70배 실시간) 기능을 제공합니다.⚡️ whisper large-v2를 사용하여 70배 실시간 전사를 위한 일괄 추론🪶 f.. 2025. 3. 10.
PaliGemma PaliGemmahttps://ai.google.dev/gemma/docs/paligemma?hl=ko PaliGemma  |  Google for Developers이 페이지는 Cloud Translation API를 통해 번역되었습니다. 의견 보내기 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요. PaliGemma 자세히 알아보기 달리 명시되지ai.google.dev PaliGemma는 PaLI-3에서 영감을 받아 SigLIP 비전 모델 및 Gemma 언어 모델과 같은 개방형 구성요소를 기반으로 하는 경량의 개방형 비전 언어 모델 (VLM)입니다. PaliGemma는 이미지와 텍스트를 모두 입력으로 사용하며 세부정보와 컨텍스트가 있는 이미지 관련 질문에 답변할 수 있습니.. 2024. 5. 19.
OpenVoice 입력한 목소리로 TTS 처리해줌. 논문 : https://arxiv.org/abs/2312.01479 소스: https://github.com/myshell-ai/OpenVoice 웹 : https://research.myshell.ai/open-voice Open Voice OpenVoice: Versatile Instant Voice Cloning We introduce OpenVoice, a versatile instant voice cloning approach that requires only a short audio clip from the reference speaker to replicate their voice and generate speech in multiple languages. .. 2024. 4. 1.
facebookresearch seamless_communication 동시통역 Seamless는 언어 전반에 걸쳐 보다 자연스럽고 진정한 의사소통을 가능하게 하는 AI 모델 제품군입니다. SeamlessM4T는 약 100개 언어를 지원하는 대규모 다국어 다중 모드 기계 번역 모델입니다. SeamlessM4T는 여러 언어에 걸쳐 운율과 음성 스타일 요소를 보존하는 모델인 SeamlessExpressive와 약 100개 언어에 대한 동시 번역 및 스트리밍 ASR을 지원하는 모델인 SeamlessStreaming의 기반이 됩니다. SeamlessExpressive 및 SeamlessStreaming은 다국어, 실시간 및 표현력 있는 번역을 특징으로 하는 통합 모델인 Seamless로 결합됩니다. SeamlessM4T 모델은 다음 작업을 지원합니다. 음성-음성 번역(S2ST) 음.. 2024. 1. 8.