Présentation de OpenTypeless : la saisie vocale qui fonctionne vraiment

·tover0314·10 min de lecture

La saisie vocale existe depuis des années, mais elle n’a jamais vraiment fonctionné comme je le souhaitais. La dictée intégrée est limitée à un seul fournisseur, les outils tiers exigent des abonnements, et le résultat nécessite toujours de lourdes corrections. Je voulais quelque chose de fondamentalement meilleur — un outil qui vous donne un contrôle total sur chaque étape du pipeline voix-vers-texte.

Le problème de la saisie vocale

En tant que développeur, je passe la majeure partie de ma journée à taper. La saisie vocale pourrait faire gagner des heures de travail répétitif, mais les solutions existantes échouaient sur des points essentiels. Elles étaient verrouillées sur un seul moteur de reconnaissance vocale, sans possibilité d’en changer. Elles ne pouvaient pas polir le résultat — on obtenait une transcription brute remplie de mots de remplissage et sans ponctuation. Et elles géraient mal le vocabulaire technique, transformant « PostgreSQL » en « post gress sequel » à chaque fois.

J’ai essayé tous les outils de saisie vocale que j’ai pu trouver. La dictée macOS était correcte pour du texte informel, mais catastrophique pour les discussions techniques. La reconnaissance vocale de Windows semblait sortir tout droit de 2005. Les applications tierces comme Otter.ai et les outils basés sur Whisper étaient meilleurs, mais ils avaient tous le même problème fondamental : impossible de personnaliser le pipeline. On était coincé avec le moteur STT qu’ils avaient choisi, le post-traitement qu’ils avaient implémenté, et les limitations qu’ils imposaient.

  • Aucun choix de fournisseur STT — verrouillé sur un seul moteur
  • Pas de polissage IA — transcription brute avec mots de remplissage et problèmes de grammaire
  • Vocabulaire technique médiocre — « React » devient « react », « PostgreSQL » devient du charabia
  • Pas de dictionnaire personnalisé — impossible de lui apprendre les termes spécifiques à votre projet
  • Tarification par abonnement — payer chaque mois pour ce qui devrait être un utilitaire

Pourquoi j’ai créé OpenTypeless

J’avais besoin d’un outil qui me permette de choisir mes propres fournisseurs, qui nettoie automatiquement ma parole, et qui fonctionne dans n’importe quelle application sur mon bureau. Pas une application web, pas une extension de navigateur — une véritable application de bureau native capable de capturer l’audio globalement et de coller du texte poli n’importe où. L’idée clé était que la saisie vocale est en réalité un problème de pipeline : capture du microphone, conversion voix-vers-texte, polissage IA du texte, et sortie vers le presse-papiers. Chaque étape devrait être configurable indépendamment.

💡La philosophie de OpenTypeless : vous apportez vos propres clés API, vous choisissez vos propres fournisseurs, et vous gardez le contrôle total. Pas d’intermédiaire, pas d’abonnement, aucune dépendance à un fournisseur.

Plongeon dans l’architecture

OpenTypeless repose sur une stack de bureau moderne conçue pour la performance et l’extensibilité. L’architecture sépare clairement les responsabilités : le shell natif gère l’intégration système, la couche UI gère l’interaction utilisateur, et le système de fournisseurs gère toute la communication avec les API externes.

OpenTypeless architecture diagram showing Tauri shell, React UI, and provider system
L’architecture en couches de OpenTypeless : shell de bureau Tauri, interface React, et système de fournisseurs modulaire

Shell de bureau Tauri

Tauri fournit le shell de bureau natif — Rust côté backend signifie d’excellentes performances, un binaire minuscule (moins de 10 Mo) et une sécurité robuste. Contrairement à Electron, Tauri utilise la webview native du système au lieu d’embarquer Chromium, ce qui réduit considérablement la consommation mémoire. Le backend Rust gère la capture audio, l’enregistrement du raccourci global, la gestion du presse-papiers et l’intégration à la barre des tâches. Ce sont des opérations qui nécessitent un accès natif au système et bénéficient des caractéristiques de performance de Rust.

Frontend React + TypeScript

L’interface est construite avec React et TypeScript, offrant une expérience de développement familière avec une sécurité de typage complète. Le frontend gère les contrôles d’enregistrement, le panneau de paramètres, l’aperçu du texte et la configuration des fournisseurs. La gestion d’état est simple — les hooks intégrés de React gèrent l’état local, et le pont IPC de Tauri communique avec le backend Rust pour les opérations système.

Le système de fournisseurs

Le système de fournisseurs est la décision architecturale la plus importante de OpenTypeless. Au lieu de coder en dur un seul moteur STT ou LLM, OpenTypeless définit une interface claire que n’importe quel fournisseur peut implémenter. Ajouter un nouveau fournisseur revient à implémenter un simple adaptateur — le reste du pipeline ne change pas.

Actuellement, OpenTypeless prend en charge 6 fournisseurs STT (Deepgram Nova-3, OpenAI Whisper, Groq Whisper, GLM-ASR, AssemblyAI et SiliconFlow) et 11 fournisseurs LLM pour le polissage de texte. Chaque fournisseur a ses points forts — Deepgram excelle en précision pour l’anglais, Groq offre la latence la plus faible, GLM-ASR est optimisé pour le chinois, et Ollama fonctionne entièrement hors ligne sur votre machine.

Voice input workflow: Microphone to STT to LLM to Clipboard
Le pipeline de saisie vocale : Micro → Fournisseur STT → Polissage LLM → Presse-papiers

Polissage de texte par IA

La sortie brute de la reconnaissance vocale est désordonnée par nature. Les gens disent « euh », « genre », « tu vois » — c’est normal à l’oral, mais terrible à l’écrit. L’étape de polissage IA de OpenTypeless envoie la transcription brute au LLM de votre choix avec un prompt soigneusement conçu qui corrige la grammaire, ajoute la ponctuation, supprime les mots de remplissage et met en forme le texte naturellement. Le dictionnaire personnalisé garantit que les termes techniques sont préservés exactement tels que vous les avez définis.

Loading animation…

Confidentialité dès la conception

La confidentialité n’est pas une réflexion après coup dans OpenTypeless — c’est un principe de conception fondamental. Vos clés API sont stockées localement sur votre machine, jamais sur nos serveurs. L’audio est envoyé directement depuis votre ordinateur vers le fournisseur STT de votre choix — il n’y a aucun serveur OpenTypeless au milieu. Nous ne collectons pas de télémétrie, nous ne suivons pas l’utilisation, et nous n’avons pas accès à vos transcriptions. Le code est entièrement open source, vous pouvez donc vérifier chaque affirmation.

💡Le flux de vos données : Votre micro → Votre fournisseur STT → Votre LLM → Votre presse-papiers. OpenTypeless ne voit jamais votre audio ni votre texte.

Philosophie open source

OpenTypeless est sous licence MIT et gratuit pour toujours. Je crois que les bons outils doivent être accessibles à tous. Le modèle open source permet à la communauté de contribuer des fournisseurs, de corriger des bugs et d’étendre les fonctionnalités. Cela signifie aussi que vous n’êtes jamais enfermé — si OpenTypeless disparaît demain, vous avez toujours le code. Plusieurs contributeurs ont déjà ajouté des adaptateurs de fournisseurs et des améliorations de l’interface, et le projet accueille les pull requests de tout le monde.

Si vous en avez assez de la saisie vocale qui ne fonctionne pas vraiment, essayez OpenTypeless. Téléchargez-le depuis notre site web, apportez vos propres clés API, et commencez à taper avec votre voix — partout. Consultez notre guide sur le choix du bon fournisseur STT pour obtenir les meilleurs résultats selon votre langue et votre cas d’utilisation.