Whisper는 범용 음성 인식 모델입니다. 다양한 오디오의 대규모 데이터 세트에 대해 학습되며 다국어 음성 인식, 음성 번역 및 언어 식별을 수행할 수 있는 멀티태스킹 모델이기도 합니다.
Whisper API는 2023년 3월에 출시된 오픈AI의 새로운 서비스입니다. 이 API를 사용하면 음성을 텍스트로 변환하는 기능을 앱이나 제품에 쉽게 통합할 수 있습니다. 다만, API 사용은 유료이며, 텍스트로 변환하려는 음성 파일의 길이(분당 $0.006(약 8원))에 따라 과금됩니다.
API 사용요금
Model: Whisper
Usage: $0.006 / minute (rounded to the nearest second)
여기서는 Github에 있는 무료 버전을 사용해서 Ubuntu 20.04에 설치할 것입니다.
Whisper installation
Python 3.9.9 및 PyTorch 1.10.1을 사용하여 모델을 훈련하고 테스트했지만 코드베이스는 Python 3.9.9 및 PyTorch 1.10.1을 사용하여 모델을 훈련하고 테스트했지만 코드베이스는 Python 3.8-3.10 및 최신 PyTorch 버전과 호환될 것으로 예상됩니다. 코드베이스는 또한 몇 가지 Python 패키지, 특히 빠른 토크나이저 구현을 위한 HuggingFace Transformers 와 오디오 파일 읽기를 위한 ffmpeg-python 에 의존합니다 . 다음 명령을 사용하여 최신 Whisper 릴리스를 다운로드 및 설치(또는 업데이트)할 수 있습니다.
콘다환경생성
git clone https://github.com/openai/whisper
conda create -n whisper Python=3.10
conda activate whisper
//conda install PyTorch=1.10.1
pip install -U openai-whisper
또는 다음 명령은 Python 종속 항목과 함께 이 리포지토리에서 최신 커밋을 가져와서 설치합니다.
pip install git+https://github.com/openai/whisper.git
# on Ubuntu or Debian
sudo apt update && sudo apt install ffmpeg
# 중간크기로 테스트를 진행
whisper audio.flac audio.mp3 audio.wav --model medium
whisper korean.wav --language Korean
SizeParametersEnglish-only modelMultilingual modelRequired VRAMRelative speed
tiny | 39 M | tiny.en | tiny | ~1 GB | ~32x |
base | 74 M | base.en | base | ~1 GB | ~16x |
small | 244 M | small.en | small | ~2 GB | ~6x |
medium | 769 M | medium.en | medium | ~5 GB | ~2x |
large | 1550 M | N/A | large | ~10 GB | 1x |
'AI > STT, TTS' 카테고리의 다른 글
OpenVoice (0) | 2024.01.07 |
---|---|
Distil-Whisper (0) | 2023.11.05 |
Whisper JAX (2) | 2023.05.01 |
사람과 같은 수준의 TTS(Tex-to-Speech) 오픈소스 (0) | 2023.04.03 |
Tactron2 (0) | 2023.04.03 |
댓글