사람과 같은 수준의 TTS(Tex-to-Speech) 오픈소스

사람과 같은 수준의 TTS(Tex-to-Speech) 오픈소스를 찾고 있다면, 다음과 같은 프로젝트들을 추천해 드립니다.

Mozilla TTS (Tacotron 2)

깃허브 주소: https://github.com/mozilla/TTS
Mozilla TTS는 딥러닝 기반의 TTS 프로젝트로 Tacotron 2 모델을 사용합니다. 이 프로젝트는 오픈소스로 개발되어 있으며, 사용자들이 자신만의 TTS 모델을 훈련시킬 수 있도록 지원합니다.

FastSpeech 2

깃허브 주소: https://github.com/ming024/FastSpeech2
FastSpeech 2는 기존 Tacotron 2와 같은 모델보다 더 빠른 합성 속도를 제공하는 프로젝트입니다. 이 프로젝트는 적은 데이터로도 효과적인 TTS를 생성할 수 있어, 사용자들에게 많은 인기를 얻고 있습니다.

NVIDIA/tacotron2

깃허브 주소: https://github.com/NVIDIA/tacotron2
NVIDIA에서 개발한 Tacotron 2 구현체입니다. GPU 가속 기능을 활용하여 TTS 합성 속도를 높이고 있으며, 사람 같은 발음 및 음성을 생성할 수 있습니다.

위의 프로젝트들은 고음질의 TTS를 생성할 수 있는 오픈소스 프로젝트들입니다. 하지만 한국어 TTS를 구현하기 위해서는 각 프로젝트에 한국어 데이터셋을 추가하고 훈련시켜야 합니다. 이를 위해 가장 널리 사용되는 한국어 TTS 데이터셋인 "KSS(Korean Single Speaker)" 데이터셋을 사용할 수 있습니다.

LJ speech dataset (English)

https://keithito.com/LJ-Speech-Dataset/

The LJ Speech Dataset

The LJ Speech Dataset This is a public domain speech dataset consisting of 13,100 short audio clips of a single speaker reading passages from 7 non-fiction books. A transcription is provided for each clip. Clips vary in length from 1 to 10 seconds and have

keithito.com

한 명의 사람이 7 권의 책을 읽은 24시간 분량의 데이터셋
13,100개의 audio clips
오디오 클립 당 1~10초 정도로 녹음되어있음
22,050Hz sampling rate

KSS dataset (Korean)

www.kaggle.com/bryanpark/korean-single-speaker-speech-dataset

Korean Single Speaker Speech Dataset

KSS Dataset: Korean Single Speaker Speech Dataset

www.kaggle.com

전문 여성 성우 한 분이 Korean, Korean-English 사전 책 4권의 예문을 읽은 약 12시간 분량의 데이터셋
12,853개의 audio clips
44,100Hz sampling rate

VCTK dataset (English)

datashare.ed.ac.uk/handle/10283/3443

CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit (version 0.92)

Citation Yamagishi, Junichi; Veaux, Christophe; MacDonald, Kirsten. (2019). CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit (version 0.92), [sound]. University of Edinburgh. The Centre for Speech Technology Research (CSTR). ht

datashare.ed.ac.uk

110명의 사람이 각 400개의 문장을 신문으로부터 발췌하여 읽은 44시간 분량의 데이터셋
44,200개의 audio clips
48,000Hz sampling rate

저작자표시 (새창열림)

'AI > STT, TTS' 카테고리의 다른 글

OpenVoice (0)	2024.01.07
Distil-Whisper (0)	2023.11.05
Whisper JAX (2)	2023.05.01
Tactron2 (0)	2023.04.03
Whisper instllation on (1)	2023.03.30

개발의신

사람과 같은 수준의 TTS(Tex-to-Speech) 오픈소스

LJ speech dataset (English)

KSS dataset (Korean)

VCTK dataset (English)

'AI > STT, TTS' 카테고리의 다른 글

댓글

티스토리툴바

사람과 같은 수준의 TTS(Tex-to-Speech) 오픈소스

LJ speech dataset (English)

KSS dataset (Korean)

VCTK dataset (English)

'AI > STT, TTS' 카테고리의 다른 글

관련글

댓글

티스토리툴바