PaliGemma

PaliGemma

https://ai.google.dev/gemma/docs/paligemma?hl=ko

PaliGemma | Google for Developers

이 페이지는 Cloud Translation API를 통해 번역되었습니다. 의견 보내기 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요. PaliGemma 자세히 알아보기 달리 명시되지

ai.google.dev

PaliGemma는 PaLI-3에서 영감을 받아 SigLIP 비전 모델 및 Gemma 언어 모델과 같은 개방형 구성요소를 기반으로 하는 경량의 개방형 비전 언어 모델 (VLM)입니다. PaliGemma는 이미지와 텍스트를 모두 입력으로 사용하며 세부정보와 컨텍스트가 있는 이미지 관련 질문에 답변할 수 있습니다. 즉, PaliGemma는 이미지를 심층 분석하고 이미지 및 짧은 동영상에 대한 캡션, 객체 감지, 이미지 내에 삽입된 텍스트 읽기와 같은 유용한 정보를 제공할 수 있습니다.

PaliGemma 모델에는 범용 세트와 연구 중심의 세트라는 두 가지 세트가 있습니다.

PaliGemma - 다양한 작업에 맞게 미세 조정할 수 있는 범용 사전 학습된 모델입니다.
PaliGemma-FT - 특정 연구 데이터 세트를 기반으로 미세 조정된 연구 중심 모델입니다.

중요: 대부분의 PaliGemma 모델은 유용한 결과를 생성하려면 paligemma-3b-mix 변형을 제외하고 조정이 필요합니다. 최종 사용자에게 모델을 배포하기 전에 이러한 모델을 미세 조정하고 출력을 테스트해야 합니다.

이를 통해 얻을 수 있는 주요 이점은 다음과 같습니다.

다중 모달 이해

이미지와 텍스트를 동시에 이해합니다.
다목적 기본 모델

다양한 비전 언어 작업에서 미세 조정 가능
즉시 사용 가능한 탐색 분석

즉각적인 연구에 사용할 수 있도록 혼합된 작업에 대해 체크포인트가 함께 제공됩니다.

https://huggingface.co/blog/paligemma

PaliGemma – Google's Cutting-Edge Open Vision Language Model

PaliGemma – Google's Cutting-Edge Open Vision Language Model PaliGemma is a new family of vision language models from Google. PaliGemma can take in an image and a text and output text. The team at Google has released three types of models: the pretrained

huggingface.co

저작자표시 (새창열림)

'AI > STT, TTS' 카테고리의 다른 글

sesame.com 사람과 같은 대화 수준 (0)	2025.03.10
OpenVoice (0)	2024.04.01
facebookresearch seamless_communication (0)	2024.01.08
OpenVoice (0)	2024.01.07
Distil-Whisper (0)	2023.11.05

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

개발의신

PaliGemma

PaliGemma

다중 모달 이해

다목적 기본 모델

즉시 사용 가능한 탐색 분석

'AI > STT, TTS' 카테고리의 다른 글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

PaliGemma

PaliGemma

다중 모달 이해

다목적 기본 모델

즉시 사용 가능한 탐색 분석

'AI > STT, TTS' 카테고리의 다른 글

관련글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역