OpenTypeless 发布:真正好用的语音输入

·tover0314·10 分钟阅读

语音输入已经存在多年,但从未达到我想要的效果。系统自带的听写功能只支持一个供应商,第三方工具需要订阅,而且输出的文本总是需要大量编辑。我想要一个从根本上更好的方案 — 一个让你完全控制语音转文字流水线每个环节的工具。

语音输入的问题

作为开发者,我每天大部分时间都在打字。语音输入可以节省数小时的重复工作,但现有方案在关键方面都不够好。它们绑定单一语音识别引擎,无法切换。它们不能润色输出 — 你得到的是充满填充词和缺少标点的原始转录。而且它们对技术词汇支持不佳,每次都把「PostgreSQL」变成乱码。

我试过了所有能找到的语音输入工具。macOS 听写对日常文本还行,但对代码讨论很糟糕。Windows 语音识别感觉像 2005 年的遗物。Otter.ai 和基于 Whisper 的工具更好,但它们都有同样的根本问题:你无法自定义流水线。你只能用它们选择的 STT 引擎、它们实现的后处理,以及它们施加的限制。

  • 无法选择 STT 供应商 — 绑定单一引擎
  • 没有 AI 润色 — 原始转录充满填充词和语法问题
  • 技术词汇支持差 — React 变成 react,PostgreSQL 变成乱码
  • 没有自定义词典 — 无法教它你项目特有的术语
  • 订阅制定价 — 为一个应该是工具的东西按月付费

为什么我要开发 OpenTypeless

我需要一个能让我自由选择供应商、自动清理语音内容、并在桌面任何应用中工作的工具。不是网页应用,不是浏览器扩展 — 而是一个真正的原生桌面应用,能全局捕获音频并在任何地方粘贴润色后的文本。关键洞察是语音输入本质上是一个流水线问题:麦克风捕获、语音转文字、AI 文本润色、剪贴板输出。每个阶段都应该可以独立配置。

💡OpenTypeless 的核心理念:你自带 API 密钥,选择自己的供应商,保持完全控制。没有中间人,没有订阅,没有供应商锁定。

架构深度解析

OpenTypeless 基于现代桌面技术栈构建,注重性能和可扩展性。架构清晰地分离了关注点:原生外壳处理系统集成,UI 层处理用户交互,供应商系统处理所有外部 API 通信。

OpenTypeless 架构图展示 Tauri 外壳、React UI 和供应商系统
OpenTypeless 的分层架构:Tauri 桌面外壳、React UI 和模块化供应商系统

Tauri 桌面外壳

Tauri 提供原生桌面外壳 — Rust 后端意味着出色的性能、极小的二进制体积(不到 10MB)和强大的安全性。与 Electron 不同,Tauri 使用系统原生 webview 而不是捆绑 Chromium,内存占用大幅降低。Rust 后端处理音频捕获、全局快捷键注册、剪贴板管理和系统托盘集成。这些都是需要原生 OS 访问并受益于 Rust 性能特性的操作。

React + TypeScript 前端

UI 使用 React 和 TypeScript 构建,提供熟悉的开发体验和完整的类型安全。前端处理录音控制、设置面板、文本预览和供应商配置。状态管理很直接 — React 内置 hooks 处理本地状态,Tauri 的 IPC 桥接与 Rust 后端通信处理系统操作。

供应商系统

供应商系统是 OpenTypeless 最重要的架构决策。OpenTypeless 没有硬编码单一 STT 引擎或 LLM,而是定义了一个清晰的接口,任何供应商都可以实现。添加新供应商只需实现一个简单的适配器 — 流水线的其余部分不需要改变。

目前 OpenTypeless 支持 6 个 STT 供应商(Deepgram Nova-3、OpenAI Whisper、Groq Whisper、GLM-ASR、AssemblyAI 和 SiliconFlow)和 11 个用于文本润色的 LLM 供应商。每个供应商有不同的优势 — Deepgram 在英语准确率上领先,Groq 提供最低延迟,GLM-ASR 针对中文优化,Ollama 完全离线运行。

语音输入工作流:麦克风到 STT 到 LLM 到剪贴板
语音输入流水线:麦克风 → STT 供应商 → LLM 润色 → 剪贴板

AI 文本润色

原始语音转文字输出天生就是杂乱的。人们会说「嗯」「那个」「就是」— 在对话中没问题,但在书面文本中很糟糕。OpenTypeless 的 AI 润色步骤将原始转录发送给你选择的 LLM,配合精心设计的提示词来修正语法、添加标点、去除填充词并自然地格式化文本。自定义词典功能确保技术术语按你定义的方式精确保留。

Loading animation…

隐私优先设计

隐私不是 OpenTypeless 的事后考虑 — 它是核心设计原则。你的 API 密钥存储在本地机器上,永远不会到我们的服务器。音频直接从你的电脑发送到你选择的 STT 供应商 — 中间没有 OpenTypeless 服务器。我们不收集遥测数据,不追踪使用情况,也无法访问你的转录内容。代码完全开源,你可以验证每一个声明。

💡你的数据流向:你的麦克风 → 你选择的 STT 供应商 → 你选择的 LLM → 你的剪贴板。OpenTypeless 永远看不到你的音频或文本。

开源理念

OpenTypeless 基于 MIT 许可证,永久免费。我相信好工具应该人人可用。开源模式意味着社区可以贡献供应商、修复 bug 和扩展功能。这也意味着你永远不会被锁定 — 即使 OpenTypeless 明天消失,你仍然拥有代码。已经有多位贡献者添加了供应商适配器和 UI 改进,项目欢迎任何人的 pull request。

如果你厌倦了不太好用的语音输入,试试 OpenTypeless。从我们的网站下载,带上你自己的 API 密钥,开始用语音输入 — 随时随地。查看我们的 STT 供应商选择指南,为你的语言和使用场景获得最佳效果。