OpenTypeless登場:本当に使える音声入力

·tover0314·10分で読めます

音声入力は何年も前からありましたが、私が望むようには動いてくれませんでした。標準の音声入力は一つのプロバイダーに限定され、サードパーティツールはサブスクリプションが必要で、出力は常に大幅な編集が必要でした。音声からテキストへのパイプラインのすべてを完全にコントロールできる、根本的に優れたツールが欲しかったのです。

音声入力の問題点

開発者として、一日の大半をタイピングに費やしています。音声入力で何時間もの繰り返し作業を節約できるはずですが、既存のソリューションは重要な点で不十分でした。単一の音声認識エンジンに縛られ、切り替えができません。出力を校正できず、フィラーワードだらけで句読点のない生の文字起こしが返ってきます。技術用語にも弱く、「PostgreSQL」が毎回文字化けしていました。

あらゆる音声入力ツールを試しました。macOSの音声入力はカジュアルなテキストにはまずまずでしたが、コードの議論には最悪でした。Windowsの音声認識は2005年の遺物のようでした。Otter.aiやWhisperベースのツールはましでしたが、すべて同じ根本的な問題がありました:パイプラインをカスタマイズできないのです。選ばれたSTTエンジン、実装された後処理、課された制限に縛られるしかありませんでした。

  • STTプロバイダーを選べない — 単一エンジンに固定
  • AI校正なし — フィラーワードと文法問題だらけの生の文字起こし
  • 技術用語の処理が貧弱 — ReactがreactになりPostgreSQLが文字化け
  • カスタム辞書なし — プロジェクト固有の用語を教えられない
  • サブスクリプション課金 — ユーティリティであるべきものに月額料金

なぜOpenTypelessを作ったのか

自分でプロバイダーを選べて、発話を自動的に整え、デスクトップのどのアプリケーションでも動作するツールが必要でした。Webアプリでもブラウザ拡張でもなく、グローバルに音声をキャプチャしてどこにでも校正済みテキストを貼り付けられる、本格的なネイティブデスクトップアプリケーションです。重要な洞察は、音声入力は本質的にパイプラインの問題だということです:マイクキャプチャ、音声テキスト変換、AIテキスト校正、クリップボード出力。各段階を独立して設定できるべきです。

💡OpenTypelessの核心理念:自分のAPIキーを持ち込み、自分のプロバイダーを選び、完全なコントロールを維持する。仲介者なし、サブスクリプションなし、ベンダーロックインなし。

アーキテクチャ詳解

OpenTypelessはパフォーマンスと拡張性を重視した最新のデスクトップスタックで構築されています。アーキテクチャは関心事を明確に分離しています:ネイティブシェルがシステム統合を、UIレイヤーがユーザーインタラクションを、プロバイダーシステムがすべての外部API通信を処理します。

OpenTypelessアーキテクチャ図:Tauriシェル、React UI、プロバイダーシステム
OpenTypelessの階層アーキテクチャ:Tauriデスクトップシェル、React UI、モジュラープロバイダーシステム

Tauriデスクトップシェル

Tauriがネイティブデスクトップシェルを提供します。Rustバックエンドにより、優れたパフォーマンス、小さなバイナリサイズ(10MB未満)、堅牢なセキュリティを実現しています。Electronと異なり、TauriはChromiumをバンドルする代わりにシステムのネイティブWebViewを使用するため、メモリ使用量が大幅に削減されます。Rustバックエンドは音声キャプチャ、グローバルホットキー登録、クリップボード管理、システムトレイ統合を処理します。

React + TypeScriptフロントエンド

UIはReactとTypeScriptで構築されており、馴染みのある開発体験と完全な型安全性を提供します。フロントエンドは録音コントロール、設定パネル、テキストプレビュー、プロバイダー設定を処理します。状態管理はシンプルで、Reactの組み込みhooksがローカル状態を処理し、TauriのIPCブリッジがシステム操作のためにRustバックエンドと通信します。

プロバイダーシステム

プロバイダーシステムはOpenTypelessの最も重要なアーキテクチャ上の決定です。単一のSTTエンジンやLLMをハードコードする代わりに、OpenTypelessはどのプロバイダーでも実装できるクリーンなインターフェースを定義しています。新しいプロバイダーの追加はシンプルなアダプターの実装だけで、パイプラインの残りは変更不要です。

現在OpenTypelessは6つのSTTプロバイダー(Deepgram Nova-3、OpenAI Whisper、Groq Whisper、GLM-ASR、AssemblyAI、SiliconFlow)と11のテキスト校正用LLMプロバイダーをサポートしています。各プロバイダーには異なる強みがあります — Deepgramは英語の精度に優れ、Groqは最低レイテンシを提供し、GLM-ASRは中国語に最適化され、Ollamaは完全にオフラインで動作します。

音声入力ワークフロー:マイクからSTT、LLM、クリップボードへ
音声入力パイプライン:マイク → STTプロバイダー → LLM校正 → クリップボード

AIテキスト校正

生の音声テキスト変換出力は本質的に雑然としています。人は「えーと」「あの」「まあ」と言います — 会話では問題ありませんが、書き言葉では困ります。OpenTypelessのAI校正ステップは、生の文字起こしを選択したLLMに送り、慎重に設計されたプロンプトで文法を修正し、句読点を追加し、フィラーワードを除去し、テキストを自然にフォーマットします。カスタム辞書機能により、技術用語が定義通りに正確に保持されます。

Loading animation…

プライバシーファースト設計

プライバシーはOpenTypelessの後付けではなく、コア設計原則です。APIキーはローカルマシンに保存され、私たちのサーバーには送信されません。音声はあなたのコンピューターから選択したSTTプロバイダーに直接送信されます — 間にOpenTypelessサーバーはありません。テレメトリの収集もなく、使用状況の追跡もなく、文字起こしへのアクセスもありません。コードは完全にオープンソースで、すべての主張を検証できます。

💡データの流れ:あなたのマイク → 選択したSTTプロバイダー → 選択したLLM → あなたのクリップボード。OpenTypelessがあなたの音声やテキストを見ることは決してありません。

オープンソース哲学

OpenTypelessはMITライセンスで永久に無料です。優れたツールは誰もがアクセスできるべきだと信じています。オープンソースモデルにより、コミュニティがプロバイダーの追加、バグ修正、機能拡張に貢献できます。また、ロックインされることもありません — たとえOpenTypelessが明日消えても、コードは手元に残ります。すでに複数のコントリビューターがプロバイダーアダプターやUI改善を追加しており、プロジェクトは誰からのプルリクエストも歓迎しています。

うまく動かない音声入力にうんざりしているなら、OpenTypelessを試してみてください。Webサイトからダウンロードし、自分のAPIキーを持ち込んで、どこでも音声で入力を始めましょう。STTプロバイダー選択ガイドもご覧ください。