본문 바로가기
AI/STT, TTS

사람과 같은 수준의 TTS(Tex-to-Speech) 오픈소스

by wenect 2023. 4. 3.

사람과 같은 수준의 TTS(Tex-to-Speech) 오픈소스를 찾고 있다면, 다음과 같은 프로젝트들을 추천해 드립니다.

  1. Mozilla TTS (Tacotron 2)
  • 깃허브 주소: https://github.com/mozilla/TTS
  • Mozilla TTS는 딥러닝 기반의 TTS 프로젝트로 Tacotron 2 모델을 사용합니다. 이 프로젝트는 오픈소스로 개발되어 있으며, 사용자들이 자신만의 TTS 모델을 훈련시킬 수 있도록 지원합니다.
  1. FastSpeech 2
  • 깃허브 주소: https://github.com/ming024/FastSpeech2
  • FastSpeech 2는 기존 Tacotron 2와 같은 모델보다 더 빠른 합성 속도를 제공하는 프로젝트입니다. 이 프로젝트는 적은 데이터로도 효과적인 TTS를 생성할 수 있어, 사용자들에게 많은 인기를 얻고 있습니다.
  1. NVIDIA/tacotron2
  • 깃허브 주소: https://github.com/NVIDIA/tacotron2
  • NVIDIA에서 개발한 Tacotron 2 구현체입니다. GPU 가속 기능을 활용하여 TTS 합성 속도를 높이고 있으며, 사람 같은 발음 및 음성을 생성할 수 있습니다.

위의 프로젝트들은 고음질의 TTS를 생성할 수 있는 오픈소스 프로젝트들입니다. 하지만 한국어 TTS를 구현하기 위해서는 각 프로젝트에 한국어 데이터셋을 추가하고 훈련시켜야 합니다. 이를 위해 가장 널리 사용되는 한국어 TTS 데이터셋인 "KSS(Korean Single Speaker)" 데이터셋을 사용할 수 있습니다. 

LJ speech dataset (English)

https://keithito.com/LJ-Speech-Dataset/

 

The LJ Speech Dataset

The LJ Speech Dataset This is a public domain speech dataset consisting of 13,100 short audio clips of a single speaker reading passages from 7 non-fiction books. A transcription is provided for each clip. Clips vary in length from 1 to 10 seconds and have

keithito.com

  • 한 명의 사람이 7 권의 책을 읽은 24시간 분량의 데이터셋
  • 13,100개의 audio clips
  • 오디오 클립 당 1~10초 정도로 녹음되어있음
  • 22,050Hz sampling rate

KSS dataset (Korean)

www.kaggle.com/bryanpark/korean-single-speaker-speech-dataset

 

Korean Single Speaker Speech Dataset

KSS Dataset: Korean Single Speaker Speech Dataset

www.kaggle.com

  • 전문 여성 성우 한 분이 Korean, Korean-English 사전 책 4권의 예문을 읽은 약 12시간 분량의 데이터셋
  • 12,853개의 audio clips
  • 44,100Hz sampling rate

VCTK dataset (English)

datashare.ed.ac.uk/handle/10283/3443

 

CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit (version 0.92)

Citation Yamagishi, Junichi; Veaux, Christophe; MacDonald, Kirsten. (2019). CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit (version 0.92), [sound]. University of Edinburgh. The Centre for Speech Technology Research (CSTR). ht

datashare.ed.ac.uk

  • 110명의 사람이 각 400개의 문장을 신문으로부터 발췌하여 읽은 44시간 분량의 데이터셋
  • 44,200개의 audio clips
  • 48,000Hz sampling rate

'AI > STT, TTS' 카테고리의 다른 글

OpenVoice  (0) 2024.01.07
Distil-Whisper  (0) 2023.11.05
Whisper JAX  (2) 2023.05.01
Tactron2  (0) 2023.04.03
Whisper instllation on  (1) 2023.03.30

댓글