Windows 语音输入工具,基于豆包 ASR 实现实时语音识别。
- 🎤 实时语音识别 - 基于豆包 ASR 的高精度语音识别
- ⌨️ 双击Ctrl触发 - 快速双击 Ctrl 键开始/停止语音输入
- 📍 悬浮按钮 - 现代风格可拖动悬浮按钮,左键切换录音,右键退出
- 🔄 流式识别 - 实时显示识别结果,支持文本修正
- 🖥️ 系统托盘 - 托盘图标菜单控制,右键访问设置和退出
- 📦 绿色便携 - 单文件可执行,无需安装
- 从 Releases 下载最新版本
- 解压到任意目录
- 运行
doubao-voice-input.exe - 首次运行会自动注册设备
-
快捷键 (双击 Ctrl):
- 快速双击
Ctrl键开始语音输入 - 再次双击停止录音,文本自动插入到当前焦点窗口
- 快速双击
-
悬浮按钮:
- 🟣 紫色 = 待机状态
- 🔴 红色 = 正在录音
- 🟠 橙色 = 处理中
- 左键点击 = 开始/停止录音
- 右键点击 = 退出程序(有确认提示)
- 拖动 = 调整位置
-
系统托盘:
- 右键托盘图标打开菜单
- 菜单项:开始/停止语音输入、设置、退出
配置文件 config.toml 与程序同目录:
[general]
auto_start = false
language = "zh-CN"
[hotkey]
mode = "double_tap"
combo_key = "Ctrl+Shift+V"
double_tap_key = "Ctrl"
double_tap_interval = 300 # 毫秒
[floating_button]
enabled = true
position_x = 100
position_y = 100
[asr]
vad_enabled = true- Rust 1.70+ (stable)
- Windows 10/11 x64
- Visual Studio Build Tools 2022
- CMake
- Protobuf Compiler (protoc)
# 克隆项目
git clone https://github.com/EvanDbg/doubao-ime-win.git
cd doubao-ime-win
# 构建 Release 版本
cargo build --release
# 可执行文件位置
# target/release/doubao-voice-input.exe项目已配置 GitHub Actions 自动构建:
- 推送到
main分支时自动构建 - 创建
v*标签时自动发布 Release
| 模块 | 技术 |
|---|---|
| 语言 | Rust |
| 语音识别 | 豆包 ASR (doubaoime-asr 协议) |
| 音频采集 | cpal |
| 音频编码 | Opus |
| 热键监听 | rdev (双击检测) |
| 系统托盘 | tray-icon |
| 悬浮按钮 | Win32 API (Layered Window) |
| 文本输入 | Windows SendInput API |
⚠️ 注意本项目基于豆包输入法客户端协议分析实现,非官方 API。
- 仅供学习研究使用
- 协议可能随时变更导致功能失效
- 请遵守相关法律法规
MIT License
- doubaoime-asr - 豆包 ASR 协议参考实现