开源利器 WhisperLiveKit：免费、本地的实时语音转文字工具

语音转文字的烦恼

你是否也遇到过这些情况？

开会或听课时，一边要努力跟上思路，一边还要手忙脚乱地敲键盘记笔记，生怕漏掉重点。
想把喜欢的播客或无字幕视频转成文字稿，却发现好用的工具要么按分钟收费，价格昂贵，要么操作复杂。
更重要的是，当你使用在线转录服务时，是否会担心自己的会议录音、私人谈话被上传到云端，存在隐私泄露的风险？

如果这些问题你也感同身受，那么今天介绍的这个开源利器，也许就是你的完美答案。

解决方案：WhisperLiveKit

今天介绍的 WhisperLiveKit，就是来解决上述所有烦恼的。

GitHub地址：https://github.com/QuentinFuxa/WhisperLiveKit

简单来说，它是一个集三大优势于一身的语音转文字工具：

完全开源：它是一个开源项目，意味着完全免费，代码透明，任何人都可以下载使用。
本地运行：它在你的电脑本地就能运行，所有语音数据根本不会离开你的设备。隐私？彻底告别担忧。
实时转录：它最大的亮点就是“实时”。你这边话音刚落，那边文字就已显示，延迟极低。

为什么 WhisperLiveKit 如此出色？

它之所以被称为“利器”，是因为它在解决了核心痛点的同时，还带来了许多强大的功能：

完全免费与开源

告别按分钟计费的昂贵服务，你可以随心所欲地使用它。
绝对的数据隐私

所有转录都在你的电脑本地完成，录音数据绝不会上传到任何云服务器。
“零”延迟的实时体验

几乎在你说话的同时，文字就同步显示出来，体验极其流畅。
惊人的高准确率

它基于强大的 OpenAI Whisper 模型，转录效果非常可靠。

补充：它和 OpenAI 的 Whisper 有什么区别？

这是一个核心问题。很多朋友会想，既然 OpenAI 已经开源了 Whisper，为什么还需要 WhisperLiveKit？


简单来说，它们是“**引擎**”与“**改装车**”的关系：

- **Whisper (引擎)**：这是 OpenAI 发布的**核心识别模型**。它非常强大，但设计初衷是处理**完整**的音频文件（比如一个10分钟的.mp3）。
- **WhisperLiveKit (实时改装车)**：这是一个**完整的、实时的服务器方案**。它解决了最关键的问题：**如何让 Whisper 这个“引擎”实时跑起来**。

如果你强行把实时语音切成小碎片（比如每秒）去喂给 Whisper，它的上下文会丢失，转录效果会很差。而 WhisperLiveKit 使用了先进的流式技术（如 SimulStreaming）来智能地处理音频，这才实现了高准确率和超低延迟的“实时”效果。


![image.png](https://cdn.jsdelivr.net/gh/mingnify/gallery/images/9c18d156f4540e4adf7b0c3136ac7132_1776337127193.webp)

支持多语言与翻译

它不仅能轻松识别中文、英文等近百种语言，甚至还能帮你实时翻译成其他语言。
智能区分说话人

在多人会议中，它还能（在开启功能后）分清楚到底是谁在说话。

我们可以用它做什么？

WhisperLiveKit 的应用场景非常广泛，几乎涵盖了所有需要语音转文字的地方：

会议与访谈

开启实时转录，会议屏幕上自动显示字幕，再也不怕分心，会后直接导出一份完整的文字稿。
内容创作者

为你的播客或视频快速生成字幕文件，极大提高后期制作效率。
在线学习者

观看外语网课或没有字幕的视频时，用它来生成实时字幕，辅助理解和学习。
灵感与笔记

当灵感涌现时，无需打字，直接用语音记录，它会帮你实时转换成文字笔记。
日常辅助

对于有听力障碍的人士，它可以作为强大的辅助工具，实时将周围的对话转换成文字。

快速上手 (使用指南)

（特别说明：这个项目虽然强大，但目前主要面向有一定动手能力的技术爱好者，需要一些简单的命令行操作。）

这里介绍最简单的“命令行”启动方式：

第 1 步：安装依赖 (FFmpeg)

在安装主程序之前，你必须先安装一个名为 FFmpeg 的音视频处理工具。

在 macOS 上 (使用 Homebrew):

brew install ffmpeg
在 Ubuntu/Debian 上:

sudo apt install ffmpeg
在 Windows 上:

(需要从 FFmpeg 官网下载并将其添加到系统路径)

第 2 步：安装 WhisperLiveKit

在你的“命令行”或“终端”工具中，输入这行命令来安装它：

pip install whisperlivekit

第 3 步：启动服务

安装成功后，继续输入这行命令来启动服务：

# 启动服务基础命令
whisperlivekit-server --model base
# 指定语言
whisperlivekit-server --model base --language <语言代码>
指定中文 (zh)： whisperlivekit-server --model base --language zh
指定英文 (en)： whisperlivekit-server --model base --language en
指定法语 (fr)： whisperlivekit-server --model base --language fr

备注：

这里我们使用了 --model base，这是一个体积小、速度快的基础模型，适合快速测试。你也可以换成 small 或 medium 等其他模型。
如果不添加 --language 参数，项目会默认使用 auto（自动检测）模式。

第 4 步：开始使用

现在，打开你的浏览器，访问 http://localhost:8000，你就能看到它的界面并开始使用了！

首次在浏览器打开，需要授权浏览器使用麦克风
如下是实时转录的界面截图
实时转录成功的内容，无法直接导出，需要手动复制保存

写在最后

作为一名独立开发者&独立创客 (Indie Hacker & Indie Maker)，WhisperLiveKit 这样的项目让我感到非常兴奋。

它清晰地展示了几个重要趋势：

AI 正在走向本地化：强大的 AI 不再是云端巨头的专属。开源工具正让 AI 模型跑在每个人的个人电脑上成为可能。
隐私优先成为刚需：用户越来越关心自己的数据安全，本地化应用彻底解决了隐私顾虑，这本身就是一个巨大的产品卖点。
开发门槛极大降低：过去，实现一个高精度的实时转录服务，对独立开发者来说成本高昂且技术复杂。而现在，有了 WhisperLiveKit 这样的“轮子”，我们可以轻松地将强大的 AI 能力集成到自己的产品中，去创造更多有价值的应用。

这不仅是一个工具，更是一个赋能者。