[Issue 1] : [AI/ML] 실시간 음성 인식(STT) 최적화 및 VAD 통합

- **Title**: [AI/ML] Implement Real-time STT with faster-whisper and VAD filtering

- **Technical Specifications**:

    - **Engine**: `faster-whisper 1.2.1` (based on CTranslate2).

    - **Optimization**: `int8` 양자화(Quantization)를 적용하여 VRAM 사용량 최적화 및 추론 속도 개선.

    - **VAD (Voice Activity Detection)**: `Silero VAD` 또는 `Whisper VAD`를 전처리 단계에 통합하여 무음 구간에서의 Hallucination(환각 현상) 차단.

    - **Buffer Strategy**: 오디오 스트림을 3~5초 단위의 Sliding Window 방식으로 처리하여 지연 시간(Latency) 1초 미만 달성.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Issue 1] : [AI/ML] 실시간 음성 인식(STT) 최적화 및 VAD 통합 #1

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

[Issue 1] : [AI/ML] 실시간 음성 인식(STT) 최적화 및 VAD 통합 #1

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions