본문 바로가기
AI/STT, TTS

PaliGemma

by wenect 2024. 5. 19.

PaliGemma

https://ai.google.dev/gemma/docs/paligemma?hl=ko

 

PaliGemma  |  Google for Developers

이 페이지는 Cloud Translation API를 통해 번역되었습니다. 의견 보내기 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요. PaliGemma 자세히 알아보기 달리 명시되지

ai.google.dev

 

PaliGemma는 PaLI-3에서 영감을 받아 SigLIP 비전 모델  Gemma 언어 모델과 같은 개방형 구성요소를 기반으로 하는 경량의 개방형 비전 언어 모델 (VLM)입니다. PaliGemma는 이미지와 텍스트를 모두 입력으로 사용하며 세부정보와 컨텍스트가 있는 이미지 관련 질문에 답변할 수 있습니다. 즉, PaliGemma는 이미지를 심층 분석하고 이미지 및 짧은 동영상에 대한 캡션, 객체 감지, 이미지 내에 삽입된 텍스트 읽기와 같은 유용한 정보를 제공할 수 있습니다.

PaliGemma 모델에는 범용 세트와 연구 중심의 세트라는 두 가지 세트가 있습니다.

  • PaliGemma - 다양한 작업에 맞게 미세 조정할 수 있는 범용 사전 학습된 모델입니다.
  • PaliGemma-FT - 특정 연구 데이터 세트를 기반으로 미세 조정된 연구 중심 모델입니다.
중요: 대부분의 PaliGemma 모델은 유용한 결과를 생성하려면 paligemma-3b-mix 변형을 제외하고 조정이 필요합니다. 최종 사용자에게 모델을 배포하기 전에 이러한 모델을 미세 조정하고 출력을 테스트해야 합니다.

이를 통해 얻을 수 있는 주요 이점은 다음과 같습니다.

  • 다중 모달 이해

    이미지와 텍스트를 동시에 이해합니다.
  • 다목적 기본 모델

    다양한 비전 언어 작업에서 미세 조정 가능
  • 즉시 사용 가능한 탐색 분석

    즉각적인 연구에 사용할 수 있도록 혼합된 작업에 대해 체크포인트가 함께 제공됩니다.
     
 

PaliGemma – Google's Cutting-Edge Open Vision Language Model

PaliGemma – Google's Cutting-Edge Open Vision Language Model PaliGemma is a new family of vision language models from Google. PaliGemma can take in an image and a text and output text. The team at Google has released three types of models: the pretrained

huggingface.co

 

'AI > STT, TTS' 카테고리의 다른 글

OpenVoice  (0) 2024.04.01
facebookresearch seamless_communication  (0) 2024.01.08
OpenVoice  (0) 2024.01.07
Distil-Whisper  (0) 2023.11.05
Whisper JAX  (2) 2023.05.01

댓글