Wir stellen vor: OpenTypeless — Spracheingabe, die wirklich funktioniert

·tover0314·10 Min. Lesezeit

Spracheingabe gibt es schon seit Jahren, aber sie hat nie so funktioniert, wie ich es mir gewünscht habe. Integrierte Diktierfunktionen sind auf einen einzigen Anbieter beschränkt, Drittanbieter-Tools erfordern Abonnements, und die Ausgabe muss immer aufwendig nachbearbeitet werden. Ich wollte etwas grundlegend Besseres — ein Tool, das volle Kontrolle über jeden Teil der Sprache-zu-Text-Pipeline bietet.

Das Problem mit Spracheingabe

Als Entwickler verbringe ich den Großteil meines Tages mit Tippen. Spracheingabe könnte Stunden repetitiver Arbeit einsparen, aber bestehende Lösungen versagten in entscheidenden Punkten. Sie waren an eine einzige Spracherkennungs-Engine gebunden, ohne Möglichkeit zu wechseln. Sie konnten die Ausgabe nicht verfeinern — man erhielt eine Rohtranskription voller Füllwörter und fehlender Zeichensetzung. Und sie kamen mit Fachvokabular nicht zurecht: Aus 'PostgreSQL' wurde jedes Mal 'post gress sequel'.

Ich habe jedes Spracheingabe-Tool ausprobiert, das ich finden konnte. macOS Dictation war für Alltagstexte brauchbar, aber für Code-Diskussionen ungeeignet. Die Windows-Spracherkennung wirkte wie ein Relikt aus 2005. Drittanbieter-Apps wie Otter.ai und Whisper-basierte Tools waren besser, hatten aber alle dasselbe grundlegende Problem: Man konnte die Pipeline nicht anpassen. Man war an die STT-Engine gebunden, die sie gewählt hatten, an die Nachbearbeitung, die sie implementiert hatten, und an die Einschränkungen, die sie vorgaben.

  • Keine Wahl des STT-Anbieters — an eine einzige Engine gebunden
  • Keine KI-Verfeinerung — Rohtranskription mit Füllwörtern und Grammatikfehlern
  • Schlechtes Fachvokabular — aus 'React' wird 'react', aus 'PostgreSQL' wird Kauderwelsch
  • Kein Benutzerwörterbuch — projektspezifische Begriffe können nicht beigebracht werden
  • Abo-Preismodell — monatlich zahlen für etwas, das ein einfaches Werkzeug sein sollte

Warum ich OpenTypeless entwickelt habe

Ich brauchte ein Tool, mit dem ich meine eigenen Anbieter wählen, meine Sprache automatisch bereinigen und in jeder Anwendung auf meinem Desktop arbeiten konnte. Keine Web-App, keine Browser-Erweiterung — eine richtige native Desktop-Anwendung, die Audio global aufnehmen und verfeinerten Text überall einfügen kann. Die entscheidende Erkenntnis war, dass Spracheingabe im Grunde ein Pipeline-Problem ist: Mikrofonaufnahme, Sprache-zu-Text-Umwandlung, KI-Textverfeinerung und Zwischenablage-Ausgabe. Jede Stufe sollte unabhängig konfigurierbar sein.

💡OpenTypelesss Kernphilosophie: Sie bringen Ihre eigenen API-Schlüssel mit, wählen Ihre eigenen Anbieter und behalten die volle Kontrolle. Kein Mittelsmann, kein Abonnement, kein Vendor Lock-in.

Architektur im Detail

OpenTypeless basiert auf einem modernen Desktop-Stack, der auf Leistung und Erweiterbarkeit ausgelegt ist. Die Architektur trennt die Zuständigkeiten sauber: Die native Shell übernimmt die Systemintegration, die UI-Schicht die Benutzerinteraktion und das Anbietersystem die gesamte externe API-Kommunikation.

OpenTypeless architecture diagram showing Tauri shell, React UI, and provider system
OpenTypelesss Schichtenarchitektur: Tauri-Desktop-Shell, React-UI und modulares Anbietersystem

Tauri-Desktop-Shell

Tauri stellt die native Desktop-Shell bereit — Rust im Backend bedeutet hervorragende Leistung, winzige Binärgröße (unter 10 MB) und robuste Sicherheit. Anders als Electron nutzt Tauri die native Webview des Systems, anstatt Chromium mitzuliefern, was zu deutlich geringerem Speicherverbrauch führt. Das Rust-Backend übernimmt Audioaufnahme, Registrierung der globalen Tastenkombination, Zwischenablage-Verwaltung und System-Tray-Integration. All diese Operationen benötigen nativen Betriebssystemzugriff und profitieren von Rusts Leistungseigenschaften.

React + TypeScript Frontend

Die Benutzeroberfläche ist mit React und TypeScript gebaut und bietet eine vertraute Entwicklungserfahrung mit vollständiger Typsicherheit. Das Frontend verwaltet die Aufnahmesteuerung, das Einstellungspanel, die Textvorschau und die Anbieterkonfiguration. Das State-Management ist unkompliziert — Reacts eingebaute Hooks verwalten den lokalen State, und Tauris IPC-Bridge kommuniziert mit dem Rust-Backend für Systemoperationen.

Das Anbietersystem

Das Anbietersystem ist OpenTypelesss wichtigste architektonische Entscheidung. Anstatt eine einzelne STT-Engine oder ein LLM fest zu verdrahten, definiert OpenTypeless eine saubere Schnittstelle, die jeder Anbieter implementieren kann. Einen neuen Anbieter hinzuzufügen bedeutet lediglich, einen einfachen Adapter zu implementieren — der Rest der Pipeline bleibt unverändert.

Aktuell unterstützt OpenTypeless 6 STT-Anbieter (Deepgram Nova-3, OpenAI Whisper, Groq Whisper, GLM-ASR, AssemblyAI und SiliconFlow) sowie 11 LLM-Anbieter für die Textverfeinerung. Jeder Anbieter hat unterschiedliche Stärken — Deepgram glänzt bei der englischen Genauigkeit, Groq liefert die niedrigste Latenz, GLM-ASR ist für Chinesisch optimiert, und Ollama läuft komplett offline auf Ihrem Rechner.

Voice input workflow: Microphone to STT to LLM to Clipboard
Die Spracheingabe-Pipeline: Mikrofon → STT-Anbieter → LLM-Verfeinerung → Zwischenablage

KI-Textverfeinerung

Rohe Sprache-zu-Text-Ausgabe ist von Natur aus unordentlich. Menschen sagen 'ähm', 'halt', 'weißt du' — das ist in Gesprächen völlig normal, aber in geschriebenem Text störend. OpenTypelesss KI-Verfeinerungsschritt sendet die Rohtranskription an das von Ihnen gewählte LLM mit einem sorgfältig ausgearbeiteten Prompt, der Grammatik korrigiert, Zeichensetzung ergänzt, Füllwörter entfernt und den Text natürlich formatiert. Die Benutzerwörterbuch-Funktion stellt sicher, dass Fachbegriffe genau so erhalten bleiben, wie Sie sie definiert haben.

Loading animation…

Datenschutz von Anfang an

Datenschutz ist bei OpenTypeless kein nachträglicher Gedanke — er ist ein zentrales Designprinzip. Ihre API-Schlüssel werden lokal auf Ihrem Rechner gespeichert, niemals auf unseren Servern. Audio wird direkt von Ihrem Computer an den von Ihnen gewählten STT-Anbieter gesendet — es gibt keinen OpenTypeless-Server dazwischen. Wir sammeln keine Telemetriedaten, wir verfolgen keine Nutzung, und wir haben keinen Zugriff auf Ihre Transkriptionen. Der Code ist vollständig quelloffen, sodass Sie jede Aussage überprüfen können.

💡Ihr Datenfluss: Ihr Mikrofon → Ihr gewählter STT-Anbieter → Ihr gewähltes LLM → Ihre Zwischenablage. OpenTypeless sieht weder Ihr Audio noch Ihren Text.

Open-Source-Philosophie

OpenTypeless steht unter der MIT-Lizenz und ist für immer kostenlos. Ich bin überzeugt, dass großartige Tools für alle zugänglich sein sollten. Das Open-Source-Modell bedeutet, dass die Community Anbieter beitragen, Fehler beheben und Funktionen erweitern kann. Es bedeutet auch, dass Sie nie eingesperrt sind — sollte OpenTypeless morgen verschwinden, haben Sie immer noch den Code. Mehrere Mitwirkende haben bereits Anbieter-Adapter und UI-Verbesserungen hinzugefügt, und das Projekt freut sich über Pull Requests von allen.

Wenn Sie genug von Spracheingabe haben, die nicht richtig funktioniert, probieren Sie OpenTypeless aus. Laden Sie es von unserer Website herunter, bringen Sie Ihre eigenen API-Schlüssel mit und beginnen Sie, mit Ihrer Stimme zu tippen — überall. Schauen Sie sich unseren Leitfaden zur Wahl des richtigen STT-Anbieters an, um die besten Ergebnisse für Ihre Sprache und Ihren Anwendungsfall zu erzielen.