PaliGemma
https://ai.google.dev/gemma/docs/paligemma?hl=ko
PaliGemma는 PaLI-3에서 영감을 받아 SigLIP 비전 모델 및 Gemma 언어 모델과 같은 개방형 구성요소를 기반으로 하는 경량의 개방형 비전 언어 모델 (VLM)입니다. PaliGemma는 이미지와 텍스트를 모두 입력으로 사용하며 세부정보와 컨텍스트가 있는 이미지 관련 질문에 답변할 수 있습니다. 즉, PaliGemma는 이미지를 심층 분석하고 이미지 및 짧은 동영상에 대한 캡션, 객체 감지, 이미지 내에 삽입된 텍스트 읽기와 같은 유용한 정보를 제공할 수 있습니다.
PaliGemma 모델에는 범용 세트와 연구 중심의 세트라는 두 가지 세트가 있습니다.
- PaliGemma - 다양한 작업에 맞게 미세 조정할 수 있는 범용 사전 학습된 모델입니다.
- PaliGemma-FT - 특정 연구 데이터 세트를 기반으로 미세 조정된 연구 중심 모델입니다.
이를 통해 얻을 수 있는 주요 이점은 다음과 같습니다.
-
다중 모달 이해
이미지와 텍스트를 동시에 이해합니다. -
다목적 기본 모델
다양한 비전 언어 작업에서 미세 조정 가능 -
즉시 사용 가능한 탐색 분석
즉각적인 연구에 사용할 수 있도록 혼합된 작업에 대해 체크포인트가 함께 제공됩니다.
'AI > STT, TTS' 카테고리의 다른 글
OpenVoice (0) | 2024.04.01 |
---|---|
facebookresearch seamless_communication (0) | 2024.01.08 |
OpenVoice (0) | 2024.01.07 |
Distil-Whisper (0) | 2023.11.05 |
Whisper JAX (2) | 2023.05.01 |
댓글