본문 바로가기
AI/STT, TTS

sesame.com 사람과 같은 대화 수준

by wenect 2025. 3. 10.

https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo

 

Crossing the uncanny valley of conversational voice

At Sesame, our goal is to achieve “voice presence”—the magical quality that makes spoken interactions feel real, understood, and valued.

www.sesame.com

이 저장소는 단어 수준 타임스탬프와 화자 일기 기능을 사용해 빠른 자동 음성 인식(대형 v2에서 70배 실시간) 기능을 제공합니다.

  • ⚡️ whisper large-v2를 사용하여 70배 실시간 전사를 위한 일괄 추론
  • 🪶 faster-whisper 백엔드, beam_size=5인 대형 v2의 경우 <8GB GPU 메모리 필요
  • 🎯 wav2vec2 정렬을 사용한 정확한 단어 수준 타임스탬프
  • 👯‍♂️ pyannote-audio 의 스피커 다이어라이제이션을 사용한 멀티스피커 ASR (스피커 ID 레이블)
  • 🗣️ VAD 사전 처리, WER 저하 없이 환각 및 배칭 감소

Whisper 는 OpenAI에서 개발한 ASR 모델로 , 다양한 오디오의 방대한 데이터 세트에서 학습되었습니다. 매우 정확한 필사본을 생성하지만 해당 타임스탬프는 단어 단위가 아닌 발화 단위이며 몇 초 정도 부정확할 수 있습니다. OpenAI의 Whisper는 기본적으로 배칭을 지원하지 않습니다.

음소 기반 ASR 단어 하나와 다른 단어를 구별하는 가장 작은 음성 단위를 인식하도록 미세 조정된 모델 모음, 예: "tap"의 요소 p. 인기 있는 예시 모델은 wav2vec2.0 입니다 .

강제 정렬이란, 정서법적 전사 내용을 오디오 녹음에 맞춰 자동으로 음소 수준 세분화를 생성하는 과정을 말합니다.

음성 활동 감지(VAD)는 사람의 음성이 있는지 없는지를 감지하는 것입니다.

화자 분할은 인간의 음성이 포함된 오디오 스트림을 각 화자의 정체성에 따라 동질적인 세그먼트로 분할하는 과정입니다.

'AI > STT, TTS' 카테고리의 다른 글

PaliGemma  (0) 2024.05.19
OpenVoice  (0) 2024.04.01
facebookresearch seamless_communication  (0) 2024.01.08
OpenVoice  (0) 2024.01.07
Distil-Whisper  (0) 2023.11.05

댓글