본문 바로가기
AI/STT, TTS

Whisper instllation on

by wenect 2023. 3. 30.

Whisper는 범용 음성 인식 모델입니다. 다양한 오디오의 대규모 데이터 세트에 대해 학습되며 다국어 음성 인식, 음성 번역 및 언어 식별을 수행할 수 있는 멀티태스킹 모델이기도 합니다.

Whisper API는 2023년 3월에 출시된 오픈AI의 새로운 서비스입니다. 이 API를 사용하면 음성을 텍스트로 변환하는 기능을 앱이나 제품에 쉽게 통합할 수 있습니다. 다만, API 사용은 유료이며, 텍스트로 변환하려는 음성 파일의 길이(분당 $0.006(약 8원))에 따라 과금됩니다.

API 사용요금
   Model: Whisper
   Usage: $0.006 / minute (rounded to the nearest second)

여기서는 Github에 있는 무료 버전을 사용해서 Ubuntu 20.04에 설치할 것입니다.

Whisper installation

Python 3.9.9 및 PyTorch 1.10.1을 사용하여 모델을 훈련하고 테스트했지만 코드베이스는 Python 3.9.9 및 PyTorch 1.10.1을 사용하여 모델을 훈련하고 테스트했지만 코드베이스는 Python 3.8-3.10 및 최신 PyTorch 버전과 호환될 것으로 예상됩니다. 코드베이스는 또한 몇 가지 Python 패키지, 특히 빠른 토크나이저 구현을 위한 HuggingFace Transformers 와 오디오 파일 읽기를 위한 ffmpeg-python 에 의존합니다 . 다음 명령을 사용하여 최신 Whisper 릴리스를 다운로드 및 설치(또는 업데이트)할 수 있습니다.


콘다환경생성
git clone https://github.com/openai/whisper
conda create -n whisper Python=3.10
conda activate whisper
//conda install PyTorch=1.10.1 

pip install -U openai-whisper

또는 다음 명령은 Python 종속 항목과 함께 이 리포지토리에서 최신 커밋을 가져와서 설치합니다.

pip install git+https://github.com/openai/whisper.git 

# on Ubuntu or Debian
sudo apt update && sudo apt install ffmpeg

# 중간크기로 테스트를 진행
whisper audio.flac audio.mp3 audio.wav --model medium

whisper korean.wav --language Korean

SizeParametersEnglish-only modelMultilingual modelRequired VRAMRelative speed

tiny 39 M tiny.en tiny ~1 GB ~32x
base 74 M base.en base ~1 GB ~16x
small 244 M small.en small ~2 GB ~6x
medium 769 M medium.en medium ~5 GB ~2x
large 1550 M N/A large ~10 GB 1x

 

'AI > STT, TTS' 카테고리의 다른 글

OpenVoice  (0) 2024.01.07
Distil-Whisper  (0) 2023.11.05
Whisper JAX  (2) 2023.05.01
사람과 같은 수준의 TTS(Tex-to-Speech) 오픈소스  (0) 2023.04.03
Tactron2  (0) 2023.04.03

댓글