OpenTypeless 发布：真正好用的语音输入

2026年1月15日|作者 tover0314|10 分钟阅读

语音输入已经存在多年，但从未达到我想要的效果。系统自带的听写功能只支持一个供应商，第三方工具需要订阅，而且输出的文本总是需要大量编辑。我想要一个从根本上更好的方案 — 一个让你完全控制语音转文字流水线每个环节的工具。

语音输入的问题

作为开发者，我每天大部分时间都在打字。语音输入可以节省数小时的重复工作，但现有方案在关键方面都不够好。它们绑定单一语音识别引擎，无法切换。它们不能润色输出 — 你得到的是充满填充词和缺少标点的原始转录。而且它们对技术词汇支持不佳，每次都把「PostgreSQL」变成乱码。

我试过了所有能找到的语音输入工具。macOS 听写对日常文本还行，但对代码讨论很糟糕。Windows 语音识别感觉像 2005 年的遗物。Otter.ai 和基于 Whisper 的工具更好，但它们都有同样的根本问题：你无法自定义流水线。你只能用它们选择的 STT 引擎、它们实现的后处理，以及它们施加的限制。

无法选择 STT 供应商 — 绑定单一引擎
没有 AI 润色 — 原始转录充满填充词和语法问题
技术词汇支持差 — React 变成 react，PostgreSQL 变成乱码
没有自定义词典 — 无法教它你项目特有的术语
订阅制定价 — 为一个应该是工具的东西按月付费

为什么我要开发 OpenTypeless

我需要一个能让我自由选择供应商、自动清理语音内容、并在桌面任何应用中工作的工具。不是网页应用，不是浏览器扩展 — 而是一个真正的原生桌面应用，能全局捕获音频并在任何地方粘贴润色后的文本。关键洞察是语音输入本质上是一个流水线问题：麦克风捕获、语音转文字、AI 文本润色、剪贴板输出。每个阶段都应该可以独立配置。

TIPOpenTypeless 的核心理念：你自带 API 密钥，选择自己的供应商，保持完全控制。没有中间人，没有订阅，没有供应商锁定。

架构深度解析

OpenTypeless 基于现代桌面技术栈构建，注重性能和可扩展性。架构清晰地分离了关注点：原生外壳处理系统集成，UI 层处理用户交互，供应商系统处理所有外部 API 通信。

OpenTypeless 架构图展示 Tauri 外壳、React UI 和供应商系统 — OpenTypeless 的分层架构：Tauri 桌面外壳、React UI 和模块化供应商系统

Tauri 桌面外壳

Tauri 提供原生桌面外壳 — Rust 后端意味着出色的性能、极小的二进制体积（不到 10MB）和强大的安全性。与 Electron 不同，Tauri 使用系统原生 webview 而不是捆绑 Chromium，内存占用大幅降低。Rust 后端处理音频捕获、全局快捷键注册、剪贴板管理和系统托盘集成。这些都是需要原生 OS 访问并受益于 Rust 性能特性的操作。

React + TypeScript 前端

UI 使用 React 和 TypeScript 构建，提供熟悉的开发体验和完整的类型安全。前端处理录音控制、设置面板、文本预览和供应商配置。状态管理很直接 — React 内置 hooks 处理本地状态，Tauri 的 IPC 桥接与 Rust 后端通信处理系统操作。

供应商系统

供应商系统是 OpenTypeless 最重要的架构决策。OpenTypeless 没有硬编码单一 STT 引擎或 LLM，而是定义了一个清晰的接口，任何供应商都可以实现。添加新供应商只需实现一个简单的适配器 — 流水线的其余部分不需要改变。

目前 OpenTypeless 支持 6 个 STT 供应商（Deepgram Nova-3、OpenAI Whisper、Groq Whisper、GLM-ASR、AssemblyAI 和 SiliconFlow）和 11 个用于文本润色的 LLM 供应商。每个供应商有不同的优势 — Deepgram 在英语准确率上领先，Groq 提供最低延迟，GLM-ASR 针对中文优化，Ollama 完全离线运行。

语音输入工作流：麦克风到 STT 到 LLM 到剪贴板 — 语音输入流水线：麦克风 → STT 供应商 → LLM 润色 → 剪贴板

AI 文本润色

原始语音转文字输出天生就是杂乱的。人们会说「嗯」「那个」「就是」— 在对话中没问题，但在书面文本中很糟糕。OpenTypeless 的 AI 润色步骤将原始转录发送给你选择的 LLM，配合精心设计的提示词来修正语法、添加标点、去除填充词并自然地格式化文本。自定义词典功能确保技术术语按你定义的方式精确保留。

TalkMoreFileEditViewWindowHelp

9:41 AM

TalkMore

Ready

Transcription

AI Polishing...

um so basically I think that the the meeting went pretty well and we should uh probably follow up with them next week about the proposal

Loading animation…

隐私优先设计

隐私不是 OpenTypeless 的事后考虑 — 它是核心设计原则。你的 API 密钥存储在本地机器上，永远不会到我们的服务器。音频直接从你的电脑发送到你选择的 STT 供应商 — 中间没有 OpenTypeless 服务器。我们不收集遥测数据，不追踪使用情况，也无法访问你的转录内容。代码完全开源，你可以验证每一个声明。

TIP你的数据流向：你的麦克风 → 你选择的 STT 供应商 → 你选择的 LLM → 你的剪贴板。OpenTypeless 永远看不到你的音频或文本。

开源理念

OpenTypeless 基于 MIT 许可证，永久免费。我相信好工具应该人人可用。开源模式意味着社区可以贡献供应商、修复 bug 和扩展功能。这也意味着你永远不会被锁定 — 即使 OpenTypeless 明天消失，你仍然拥有代码。已经有多位贡献者添加了供应商适配器和 UI 改进，项目欢迎任何人的 pull request。

如果你厌倦了不太好用的语音输入，试试 OpenTypeless。从我们的网站下载，带上你自己的 API 密钥，开始用语音输入 — 随时随地。查看我们的 STT 供应商选择指南，为你的语言和使用场景获得最佳效果。