Input 0:开源 macOS 本地语音输入工具,支持本地转录与自定义 LLM 润色

 

macOS 自带语音听写能用,但不够用。

它会原样保留“嗯”“然后”“那个”这些口头禅;碰到技术术语、英文缩写或品牌名,识别结果也可能不太理想。更关键的是,很多用户对系统级语音输入的顾虑,不是能不能用,而是数据处理路径不够可控。

Input 0 是一个面向 Mac 用户的开源 macOS 本地语音输入工具。它把语音转文字这一步尽量留在本机完成,再按需接入你自己的 LLM API 润色文本,最后直接粘贴进任意输入框。

真正让这款 macOS 本地语音输入工具和普通听写工具拉开差距的,不是“能不能转文字”,而是它把本地转录、自定义模型和 LLM 润色拆成了可选组合。

Input 0:开源 macOS 本地语音输入工具,支持本地转录与自定义 LLM 润色

 

Input 0 的核心优势在于它的“分层处理机制”:支持下载离线语音模型,让语音到文字的转录阶段在本地完成;同时支持接入自定义的 LLM(大语言模型)API 来润色文本。它的限制在于目前仅限 macOS 平台,且本地运行模型对电脑性能(尤其是 Apple Silicon)有一定要求,比较适合对数据流向敏感、有一定动手能力的轻度折腾用户。

Input 0:开源 macOS 本地语音输入工具,支持本地转录与自定义 LLM 润色

这款 macOS 本地语音输入工具和普通听写有什么区别?

很多常见的语音输入工具,会把识别过程放在云端完成。网络不稳时容易拖慢体验,数据处理路径也不够直观。

Input 0 的工作流是拆开的。按住快捷键开始录音,松手后,本地引擎会优先调用设备本地算力完成转录,不依赖联网识别。如果配置了 API,它会紧接着调用大模型帮你去掉口水话、修正专有名词,最后输出干净的文本。

Input 0 的工作流程

整个流程分三步,按住快捷键(默认 Option+Space)开始,松手结束:

Input 0:开源 macOS 本地语音输入工具,支持本地转录与自定义 LLM 润色

  1. 按住快捷键 → 开始录音,界面以半透明浮层出现,不打断当前工作。
  2. 松手 → 本地引擎优先调用本地算力完成转录;在 Apple Silicon 机器上体验通常更好。是否联网,取决于你后续是否启用 LLM 润色。
  3. LLM 润色 → 调用你配置的 API,去掉口头禅、修语法、纠正专业术语,然后自动粘贴进当前输入框。

如果中途想取消,任意阶段按 ESC 都能中止。历史记录里能看到原始转录和 LLM 润色后的对比,方便复查。

本地语音引擎怎么选?

Input 0 支持多种本地 STT(语音转文本)引擎和按需下载的模型,你不需要全部安装,你可以这样选:

Input 0:开源 macOS 本地语音输入工具,支持本地转录与自定义 LLM 润色

引擎名称 推荐场景 体积参考
SenseVoice Small 更适合中文为主的多语场景 ~228 MB
Paraformer Chinese 纯中文,极速推理 ~217 MB
Whisper Large v3 Turbo 英文或多语言混杂,精度高 ~1.5 GB
Moonshine Base 仅英文,速度极快 ~274 MB

对于大部分中文用户,直接选 SenseVoice Small 或 Paraformer 就行,体积小、启动快。

LLM API 怎么配置?

这是 Input 0 和其他语音输入工具的主要差异点之一:你可以接任何兼容 OpenAI 格式的 LLM,不绑定特定服务商。

Input 0:开源 macOS 本地语音输入工具,支持本地转录与自定义 LLM 润色

设置路径: 打开 Input 0 → 侧边栏 ⚙️ 设置 → LLM API 区域

  • API Key:填入你的 OpenAI 或兼容服务商密钥
  • API Base URL:默认 OpenAI,改成第三方接口地址也可以(Groq、Azure、本地 Ollama 均支持)
  • Model:默认 gpt-4o-mini,可以换成任意模型名

填完可以点「Test Connection」验证连通性。

如果只想要语音转文字、不需要 LLM 润色,不填 API Key 也能用——只是输出的是原始转录,口头禅和错别字需要自己处理。

使用前最容易忽略的 3 个门槛

这东西看着思路很好,但并不是点开就能用的傻瓜式软件,它挑人也挑环境:

客观避坑:

  1. 网络门槛: 本地模型是从 Hugging Face 下载的,如果你所在的网络环境无法顺畅访问该平台,模型下载这一步就会卡住。
  2. 设备门槛: 官方推荐使用搭载 Apple Silicon(M 系列芯片)的 Mac。Intel 芯片的 Mac 理论上能跑,但转录速度和发热表现可能会打折扣。
  3. 数据流向边界: 虽然“语音转文字”这一步在本地不出电脑,但如果你启用了 LLM 润色功能,转录后的文本依然会发送给你配置的大模型接口。

这款 macOS 本地语音输入工具适合哪些人?

如果你是 M 系列 Mac 用户,平时需要大量口述草稿、整理会议内容,或者经常输入技术术语、品牌名和中英混合内容,Input 0 会比系统自带听写更值得折腾。反过来,如果你只想偶尔说两句消息,不想自己下载模型、配置 API,那系统自带方案反而更省事。

Input 0:开源 macOS 本地语音输入工具,支持本地转录与自定义 LLM 润色

还有一点容易被忽略:Input 0 采用 CC BY-NC 4.0 许可证,个人学习和非商业使用更直接;如果你打算放进商业环境里长期使用,最好先核对授权边界。

💡 延伸阅读:如果你用的不是 Mac,或者想对比一下市面上其他免费好用的语音转文字方案,可以点击查看本站整理的 👉 更多语音输入工具推荐

项目主页与源码入口

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。