Skip to content

[Issue 1] : [AI/ML] 실시간 음성 인식(STT) 최적화 및 VAD 통합 #1

Description

@Minjaaaaee
  • Title: [AI/ML] Implement Real-time STT with faster-whisper and VAD filtering

  • Technical Specifications:

    • Engine: faster-whisper 1.2.1 (based on CTranslate2).

    • Optimization: int8 양자화(Quantization)를 적용하여 VRAM 사용량 최적화 및 추론 속도 개선.

    • VAD (Voice Activity Detection): Silero VAD 또는 Whisper VAD를 전처리 단계에 통합하여 무음 구간에서의 Hallucination(환각 현상) 차단.

    • Buffer Strategy: 오디오 스트림을 3~5초 단위의 Sliding Window 방식으로 처리하여 지연 시간(Latency) 1초 미만 달성.

Metadata

Metadata

Assignees

Labels

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions