基于 FastRTC、FunASR、MegaTTS 和 Qwen2.5 的实时语音对话应用。
- 🎙️ 实时语音对话:支持实时语音输入和输出
- 🤖 智能对话:基于 Ollama(Qwen2.5) 大语言模型
- 🗣️ 语音识别:使用 FunASR 进行中文语音识别
- 🔊 语音合成:使用 MegaTTS/ChatTTS 进行中文语音合成
- 🌐 WebRTC 支持:基于 FastRTC 实现实时音视频通信
- FastRTC:实时音视频通信框架
- FunASR:中文语音识别模型
- MegaTTS:字节跳动的智能语音合成模型
- ChatTTS:中文语音合成模型
- ChatTTS_Speaker:ChatTTS 说话人模型
- Qwen2.5:通义千问 2.5 大语言模型
- 克隆项目并安装依赖:
git clone https://github.com/jkin8010/fastrtc-talking-more.git
cd fastrtc-zh-demo
uv sync- 配置环境变量:
# 国内镜像
export HF_ENDPOINT="https://hf-mirror.com"
# 非必要
export OLLAMA_API_KEY="ollama"
export OLLAMA_API_URL="http://localhost:11434/v1/"- 启动服务:
uv run start- 访问
http://localhost:7860打开 Web 界面 - 点击"开始对话"按钮
- 允许浏览器访问麦克风
- 开始语音对话
- 确保已安装所有依赖项
- 确保有足够的系统资源运行模型
- 建议使用支持 WebRTC 的现代浏览器
- FastRTC:实时音视频通信框架
- FunASR:中文语音识别模型
- MegaTTS:字节跳动的智能语音合成模型
- ChatTTS:中文语音合成模型
- ChatTTS_Speaker:ChatTTS 说话人模型
MIT License