본문 바로가기

AI/STT, TTS9

PaliGemma PaliGemmahttps://ai.google.dev/gemma/docs/paligemma?hl=ko PaliGemma  |  Google for Developers이 페이지는 Cloud Translation API를 통해 번역되었습니다. 의견 보내기 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요. PaliGemma 자세히 알아보기 달리 명시되지ai.google.dev PaliGemma는 PaLI-3에서 영감을 받아 SigLIP 비전 모델 및 Gemma 언어 모델과 같은 개방형 구성요소를 기반으로 하는 경량의 개방형 비전 언어 모델 (VLM)입니다. PaliGemma는 이미지와 텍스트를 모두 입력으로 사용하며 세부정보와 컨텍스트가 있는 이미지 관련 질문에 답변할 수 있습니.. 2024. 5. 19.
OpenVoice 입력한 목소리로 TTS 처리해줌. 논문 : https://arxiv.org/abs/2312.01479 소스: https://github.com/myshell-ai/OpenVoice 웹 : https://research.myshell.ai/open-voice Open Voice OpenVoice: Versatile Instant Voice Cloning We introduce OpenVoice, a versatile instant voice cloning approach that requires only a short audio clip from the reference speaker to replicate their voice and generate speech in multiple languages. .. 2024. 4. 1.
facebookresearch seamless_communication 동시통역 Seamless는 언어 전반에 걸쳐 보다 자연스럽고 진정한 의사소통을 가능하게 하는 AI 모델 제품군입니다. SeamlessM4T는 약 100개 언어를 지원하는 대규모 다국어 다중 모드 기계 번역 모델입니다. SeamlessM4T는 여러 언어에 걸쳐 운율과 음성 스타일 요소를 보존하는 모델인 SeamlessExpressive와 약 100개 언어에 대한 동시 번역 및 스트리밍 ASR을 지원하는 모델인 SeamlessStreaming의 기반이 됩니다. SeamlessExpressive 및 SeamlessStreaming은 다국어, 실시간 및 표현력 있는 번역을 특징으로 하는 통합 모델인 Seamless로 결합됩니다. SeamlessM4T 모델은 다음 작업을 지원합니다. 음성-음성 번역(S2ST) 음.. 2024. 1. 8.
OpenVoice https://github.com/myshell-ai/OpenVoice GitHub - myshell-ai/OpenVoice: Instant voice cloning by MyShell. Instant voice cloning by MyShell. Contribute to myshell-ai/OpenVoice development by creating an account on GitHub. github.com 2024. 1. 7.