사람과 같은 수준의 TTS(Tex-to-Speech) 오픈소스를 찾고 있다면, 다음과 같은 프로젝트들을 추천해 드립니다.
- Mozilla TTS (Tacotron 2)
- 깃허브 주소: https://github.com/mozilla/TTS
- Mozilla TTS는 딥러닝 기반의 TTS 프로젝트로 Tacotron 2 모델을 사용합니다. 이 프로젝트는 오픈소스로 개발되어 있으며, 사용자들이 자신만의 TTS 모델을 훈련시킬 수 있도록 지원합니다.
- FastSpeech 2
- 깃허브 주소: https://github.com/ming024/FastSpeech2
- FastSpeech 2는 기존 Tacotron 2와 같은 모델보다 더 빠른 합성 속도를 제공하는 프로젝트입니다. 이 프로젝트는 적은 데이터로도 효과적인 TTS를 생성할 수 있어, 사용자들에게 많은 인기를 얻고 있습니다.
- NVIDIA/tacotron2
- 깃허브 주소: https://github.com/NVIDIA/tacotron2
- NVIDIA에서 개발한 Tacotron 2 구현체입니다. GPU 가속 기능을 활용하여 TTS 합성 속도를 높이고 있으며, 사람 같은 발음 및 음성을 생성할 수 있습니다.
위의 프로젝트들은 고음질의 TTS를 생성할 수 있는 오픈소스 프로젝트들입니다. 하지만 한국어 TTS를 구현하기 위해서는 각 프로젝트에 한국어 데이터셋을 추가하고 훈련시켜야 합니다. 이를 위해 가장 널리 사용되는 한국어 TTS 데이터셋인 "KSS(Korean Single Speaker)" 데이터셋을 사용할 수 있습니다.
LJ speech dataset (English)
https://keithito.com/LJ-Speech-Dataset/
- 한 명의 사람이 7 권의 책을 읽은 24시간 분량의 데이터셋
- 13,100개의 audio clips
- 오디오 클립 당 1~10초 정도로 녹음되어있음
- 22,050Hz sampling rate
KSS dataset (Korean)
www.kaggle.com/bryanpark/korean-single-speaker-speech-dataset
- 전문 여성 성우 한 분이 Korean, Korean-English 사전 책 4권의 예문을 읽은 약 12시간 분량의 데이터셋
- 12,853개의 audio clips
- 44,100Hz sampling rate
VCTK dataset (English)
datashare.ed.ac.uk/handle/10283/3443
- 110명의 사람이 각 400개의 문장을 신문으로부터 발췌하여 읽은 44시간 분량의 데이터셋
- 44,200개의 audio clips
- 48,000Hz sampling rate
'AI > STT, TTS' 카테고리의 다른 글
OpenVoice (0) | 2024.01.07 |
---|---|
Distil-Whisper (0) | 2023.11.05 |
Whisper JAX (2) | 2023.05.01 |
Tactron2 (0) | 2023.04.03 |
Whisper instllation on (1) | 2023.03.30 |
댓글