Whisper instllation on

Whisper는 범용 음성 인식 모델입니다. 다양한 오디오의 대규모 데이터 세트에 대해 학습되며 다국어 음성 인식, 음성 번역 및 언어 식별을 수행할 수 있는 멀티태스킹 모델이기도 합니다.

Whisper API는 2023년 3월에 출시된 오픈AI의 새로운 서비스입니다. 이 API를 사용하면 음성을 텍스트로 변환하는 기능을 앱이나 제품에 쉽게 통합할 수 있습니다. 다만, API 사용은 유료이며, 텍스트로 변환하려는 음성 파일의 길이(분당 $0.006(약 8원))에 따라 과금됩니다.

API 사용요금
Model: Whisper
Usage: $0.006 / minute (rounded to the nearest second)

여기서는 Github에 있는 무료 버전을 사용해서 Ubuntu 20.04에 설치할 것입니다.

Whisper installation

Python 3.9.9 및 PyTorch 1.10.1을 사용하여 모델을 훈련하고 테스트했지만 코드베이스는 Python 3.9.9 및 PyTorch 1.10.1을 사용하여 모델을 훈련하고 테스트했지만 코드베이스는 Python 3.8-3.10 및 최신 PyTorch 버전과 호환될 것으로 예상됩니다. 코드베이스는 또한 몇 가지 Python 패키지, 특히 빠른 토크나이저 구현을 위한 HuggingFace Transformers 와 오디오 파일 읽기를 위한 ffmpeg-python 에 의존합니다 . 다음 명령을 사용하여 최신 Whisper 릴리스를 다운로드 및 설치(또는 업데이트)할 수 있습니다.

콘다환경생성
git clone https://github.com/openai/whisper
conda create -n whisper Python=3.10
conda activate whisper
//conda install PyTorch=1.10.1

pip install -U openai-whisper

또는 다음 명령은 Python 종속 항목과 함께 이 리포지토리에서 최신 커밋을 가져와서 설치합니다.

pip install git+https://github.com/openai/whisper.git

# on Ubuntu or Debian
sudo apt update && sudo apt install ffmpeg

# 중간크기로 테스트를 진행
whisper audio.flac audio.mp3 audio.wav --model medium

whisper korean.wav --language Korean

SizeParametersEnglish-only modelMultilingual modelRequired VRAMRelative speed

tiny	39 M	tiny.en	tiny	~1 GB	~32x
base	74 M	base.en	base	~1 GB	~16x
small	244 M	small.en	small	~2 GB	~6x
medium	769 M	medium.en	medium	~5 GB	~2x
large	1550 M	N/A	large	~10 GB	1x

저작자표시 (새창열림)

'AI > STT, TTS' 카테고리의 다른 글

OpenVoice (0)	2024.01.07
Distil-Whisper (0)	2023.11.05
Whisper JAX (2)	2023.05.01
사람과 같은 수준의 TTS(Tex-to-Speech) 오픈소스 (0)	2023.04.03
Tactron2 (0)	2023.04.03

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

개발의신

Whisper instllation on

Whisper는 범용 음성 인식 모델입니다. 다양한 오디오의 대규모 데이터 세트에 대해 학습되며 다국어 음성 인식, 음성 번역 및 언어 식별을 수행할 수 있는 멀티태스킹 모델이기도 합니다.

'AI > STT, TTS' 카테고리의 다른 글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

Whisper instllation on

Whisper는 범용 음성 인식 모델입니다. 다양한 오디오의 대규모 데이터 세트에 대해 학습되며 다국어 음성 인식, 음성 번역 및 언어 식별을 수행할 수 있는 멀티태스킹 모델이기도 합니다.

'AI > STT, TTS' 카테고리의 다른 글

관련글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역