- **Title**: [AI/ML] Implement Real-time STT with faster-whisper and VAD filtering - **Technical Specifications**: - **Engine**: `faster-whisper 1.2.1` (based on CTranslate2). - **Optimization**: `int8` 양자화(Quantization)를 적용하여 VRAM 사용량 최적화 및 추론 속도 개선. - **VAD (Voice Activity Detection)**: `Silero VAD` 또는 `Whisper VAD`를 전처리 단계에 통합하여 무음 구간에서의 Hallucination(환각 현상) 차단. - **Buffer Strategy**: 오디오 스트림을 3~5초 단위의 Sliding Window 방식으로 처리하여 지연 시간(Latency) 1초 미만 달성.
Title: [AI/ML] Implement Real-time STT with faster-whisper and VAD filtering
Technical Specifications:
Engine:
faster-whisper 1.2.1(based on CTranslate2).Optimization:
int8양자화(Quantization)를 적용하여 VRAM 사용량 최적화 및 추론 속도 개선.VAD (Voice Activity Detection):
Silero VAD또는Whisper VAD를 전처리 단계에 통합하여 무음 구간에서의 Hallucination(환각 현상) 차단.Buffer Strategy: 오디오 스트림을 3~5초 단위의 Sliding Window 방식으로 처리하여 지연 시간(Latency) 1초 미만 달성.