Mel 스펙트로그램 예측에서 Wavenet을 조건화하여 자연 TTS 합성 의 PyTorch 구현 .
이 구현에는 분산 및 자동 혼합 정밀도 지원이 포함되며 LJSpeech 데이터 세트를 사용합니다 .
분산 및 자동 혼합 정밀도 지원은 NVIDIA의 Apex 및 AMP 에 의존합니다 .
게시된 Tacotron 2 및 WaveGlow 모델을 사용한 오디오 샘플을 보려면 웹사이트를 방문하십시오 .
https://github.com/NVIDIA/tacotron2
https://github.com/hccho2/Tacotron2-Wavenet-Korean-TTS
Tacotron2 모델과 Wavenet Vocoder를 결합하여 한국어 TTS구현하는 project입니다. Tacotron2 모델을 Multi-Speaker모델로 확장했습니다.
참고
https://www.youtube.com/watch?v=BmD8OA9FGR0&list=PLetSlH8YjIfWk_PBAXKWqQM4pqzMMENrb&index=38
https://velog.io/@tobigsvoice1516/Deep-Learning-Tacotron2-Transformer
https://joungheekim.github.io/2020/10/08/paper-review/
코렙으로 사용해보기 ( nVidia )
https://www.youtube.com/playlist?list=PL9mhQYIlKEhfyZxdateDkmmpXbTLy_-MN
https://colab.research.google.com/drive/1pz5DHXRmiobN0TSh_xsVjF8_OqKayZcl?usp=sharing
https://tacademy.skplanet.com/live/player/onlineLectureDetail.action?seq=184
'AI > STT, TTS' 카테고리의 다른 글
OpenVoice (0) | 2024.01.07 |
---|---|
Distil-Whisper (0) | 2023.11.05 |
Whisper JAX (2) | 2023.05.01 |
사람과 같은 수준의 TTS(Tex-to-Speech) 오픈소스 (0) | 2023.04.03 |
Whisper instllation on (1) | 2023.03.30 |
댓글