最近看到一个挺有意思的开源项目,是一个纯前端音视频转文字工具。这个工具没有后端服务器,本地保存后就能作为静态网页使用,也可以直接部署到 GitHub Pages、Cloudflare Pages 这类静态托管平台。
长音频转文字真正麻烦的地方,往往不是识别本身,而是时长限制。很多在线 SaaS 工具会限制免费转写时长;自己调用语音识别 API 时,也经常会遇到单次音频长度限制。比如科大讯飞的语音听写流式接口,主要面向短音频即时识别场景,长会议录音通常不能直接整段丢进去处理。
voice-to-text-tools 就是把这一步前置到浏览器里完成。它会先在本地把长音频自动切成多个短片段,再按接口规则逐段发送识别,最后把识别结果重新合并成完整文本。这样用户不需要额外搭建后端服务,也不用手动剪音频。
摘要:这是一个利用前端算力处理长音频,并对接讯飞 API 的开源小工具。它最大的卖点是“浏览器自动分段识别”,不需要服务器部署。适合懂一点 API 配置、手里有超长会议录音或视频素材要转文字,又想自己控制成本的人使用。
纯前端音视频转文字工具的核心原理:浏览器分段 + 讯飞 API
很多简单的转文字网页,实际上只是加了个漂亮的 UI,你传大文件进去,它还是会因为不符合 API 的时长要求而报错。
而这个纯前端音视频转文字工具真正有价值的地方,是引入了 FFmpeg WebAssembly。这相当于把一个基础的音视频处理软件搬到了你的浏览器里。
当你上传一段 1 小时的会议录音时,工具会在你的本地浏览器里自动把它切成一个个几十秒的小段,然后再按照讯飞接口的规则,一段段地发过去识别。识别完成后,前端再把文字原封不动地拼装好,甚至还能帮你导出 TXT 或 Word。它用你电脑的本地算力,巧妙地适配了 API 的单次音频时长限制。
大白话解释:大厂接口的规矩是“一次只能听一小段”,以前你要么放弃,要么自己手动剪音频。现在这个网页就像个不知疲倦的剪辑助理,在你的浏览器里自动把录音剪好,分批递给大厂识别,最后再把识别出的文字合并整理给你。
上手流程:纯前端怎么配大厂 API?
因为没有后端,这个工具运行的前提是你得自备“钥匙”。使用前需要先准备讯飞 API 凭证,整体跑通大概需要三步:
- 注册账号:前往讯飞开放平台(xfyun.cn),注册并完成实名认证。
- 获取凭证:进入控制台,找到“语音听写服务”,创建应用后,获取对应的 APPID、API Key 和 API Secret。
- 填入配置:打开这个工具的网页(无论是在线演示版还是你自己本地双击打开的 HTML),在设置里填入这三项数据,就可以上传文件开始转录了。
纯前端不等于完全离线,隐私边界需要了解清楚
看到“无后端服务器”,很多人容易产生一个误区,以为它完全是在本地断网运行的,或者“数据绝对不上传”。所以这里必须明确它的边界。
项目确实不需要把你的 API Key 交给作者的服务器,凭证只保存在你浏览器的 localStorage 里,这防止了中间商窃取秘钥。但是,语音识别的过程依然要走网络。你的音频切片会被真实地发送给科大讯飞的云端服务器进行解析。
门槛与安全提醒:
1. 如果是涉密的商业会议或极度敏感的客户资料,别指望它能做到“物理隔离”,涉及机密依然不建议走云端 API 处理。
2. 识别质量不由工具决定:这个项目本质上是讯飞 API 的前端封装,识别准确率、方言支持程度,全部取决于讯飞后端的能力。
适合哪些人使用,不适合哪些场景?
适合折腾的场景:
- 个人用户偶尔转录长会议、课程、采访录音。
- 不想在商业工具上花钱,自己有能力配置 API,想尽量控制转写成本的独立开发者或极客。
- 需要快速搭一个自用的音视频转文字页面,直接部署到 GitHub Pages 等静态托管平台。
不太适合的场景:
- 对音频数据有严格合规要求、不允许经过任何第三方大厂的企业用户。
- 需要团队共享、多终端云同步、历史记录管理的场景(这只是个单页工具,没有账户体系)。
- 完全不想懂任何配置,只想要一键拖拽出结果的小白用户(老老实实用剪映或飞书更顺手)。
常见问题
Q:讯飞 API 免费额度怎么算?
A:根据讯飞语音听写接口当前公开文档,新创建应用默认通常会有每日 500 次免费调用量。具体额度、计费方式和政策可能调整,使用前建议以讯飞控制台显示为准。
Q:我的音视频文件会被第三方小网站存下来吗?
A:不会。文件切割分段在你的浏览器本地完成,识别时音频流直接发送给大厂(讯飞)的 API,不经过这个开源项目作者的任何中转服务器。




