Presentamos OpenTypeless: Entrada de Voz que Realmente Funciona
La entrada de voz existe desde hace años, pero nunca funcionó como yo quería. El dictado integrado está limitado a un solo proveedor, las herramientas de terceros requieren suscripciones, y el resultado siempre necesita mucha edición. Yo quería algo fundamentalmente mejor: una herramienta que te diera control total sobre cada parte del proceso de voz a texto.
El problema con la entrada de voz
Como desarrollador, paso la mayor parte del día escribiendo. La entrada de voz podría ahorrar horas de trabajo repetitivo, pero las soluciones existentes fallaban en aspectos críticos. Estaban atadas a un solo motor de reconocimiento de voz sin posibilidad de cambiar. No podían pulir el resultado: obtenías una transcripción en bruto llena de muletillas y sin puntuación. Y no funcionaban bien con vocabulario técnico, convirtiendo 'PostgreSQL' en 'post gress sequel' una y otra vez.
Probé todas las herramientas de entrada de voz que encontré. El Dictado de macOS era aceptable para texto casual pero terrible para discusiones de código. El Reconocimiento de Voz de Windows parecía una reliquia de 2005. Aplicaciones de terceros como Otter.ai y herramientas basadas en Whisper eran mejores, pero todas tenían el mismo problema fundamental: no podías personalizar el proceso. Estabas atado al motor STT que ellos elegían, al posprocesamiento que implementaban y a las limitaciones que imponían.
- Sin elección de proveedor STT — atado a un solo motor
- Sin pulido con IA — transcripción en bruto con muletillas y errores gramaticales
- Vocabulario técnico deficiente — 'React' se convierte en 'react', 'PostgreSQL' en algo ininteligible
- Sin diccionario personalizado — no puedes enseñarle los términos específicos de tu proyecto
- Precio por suscripción — pagando mensualmente por algo que debería ser una utilidad básica
Por qué construí OpenTypeless
Necesitaba una herramienta que me permitiera elegir mis propios proveedores, que limpiara automáticamente mi dictado y que funcionara en cualquier aplicación de mi escritorio. No una app web, no una extensión de navegador, sino una aplicación de escritorio nativa capaz de capturar audio globalmente y pegar texto pulido en cualquier lugar. La idea clave fue que la entrada de voz es realmente un problema de pipeline: captura de micrófono, conversión de voz a texto, pulido de texto con IA y salida al portapapeles. Cada etapa debería ser configurable de forma independiente.
Arquitectura a fondo
OpenTypeless está construido sobre un stack de escritorio moderno diseñado para rendimiento y extensibilidad. La arquitectura separa responsabilidades de forma clara: la capa nativa se encarga de la integración con el sistema, la capa de interfaz gestiona la interacción con el usuario, y el sistema de proveedores maneja toda la comunicación con APIs externas.
Capa de escritorio Tauri
Tauri proporciona la capa nativa de escritorio. Rust en el backend significa un rendimiento excelente, un binario diminuto (menos de 10 MB) y una seguridad robusta. A diferencia de Electron, Tauri usa el webview nativo del sistema en lugar de incluir Chromium, lo que reduce drásticamente el consumo de memoria. El backend en Rust se encarga de la captura de audio, el registro del atajo global, la gestión del portapapeles y la integración con la bandeja del sistema. Todas estas operaciones necesitan acceso nativo al sistema operativo y se benefician de las características de rendimiento de Rust.
Frontend con React + TypeScript
La interfaz está construida con React y TypeScript, ofreciendo una experiencia de desarrollo familiar con seguridad de tipos completa. El frontend gestiona los controles de grabación, el panel de configuración, la vista previa del texto y la configuración de proveedores. La gestión de estado es sencilla: los hooks integrados de React manejan el estado local, y el puente IPC de Tauri se comunica con el backend en Rust para las operaciones del sistema.
El sistema de proveedores
El sistema de proveedores es la decisión arquitectónica más importante de OpenTypeless. En lugar de codificar un solo motor STT o LLM, OpenTypeless define una interfaz limpia que cualquier proveedor puede implementar. Agregar un nuevo proveedor significa implementar un adaptador simple; el resto del pipeline no cambia.
Actualmente, OpenTypeless soporta 6 proveedores STT (Deepgram Nova-3, OpenAI Whisper, Groq Whisper, GLM-ASR, AssemblyAI y SiliconFlow) y 11 proveedores LLM para el pulido de texto. Cada proveedor tiene fortalezas diferentes: Deepgram destaca en precisión para inglés, Groq ofrece la menor latencia, GLM-ASR está optimizado para chino, y Ollama funciona completamente sin conexión en tu máquina.
Pulido de texto con IA
La salida de voz a texto en bruto es desordenada por naturaleza. La gente dice 'eh', 'o sea', '¿sabes?' — y eso está bien en una conversación, pero es terrible en texto escrito. El paso de pulido con IA de OpenTypeless envía la transcripción en bruto al LLM que hayas elegido con un prompt cuidadosamente diseñado que corrige la gramática, añade puntuación, elimina muletillas y da formato al texto de forma natural. La función de diccionario personalizado asegura que los términos técnicos se conserven exactamente como los defines.
Privacidad desde el diseño
La privacidad no es algo secundario en OpenTypeless, es un principio de diseño fundamental. Tus claves API se almacenan localmente en tu máquina, nunca en nuestros servidores. El audio se envía directamente desde tu computadora al proveedor STT que elijas; no hay ningún servidor de OpenTypeless en el medio. No recopilamos telemetría, no rastreamos el uso y no tenemos acceso a tus transcripciones. El código es completamente de código abierto, así que puedes verificar cada afirmación.
Filosofía de código abierto
OpenTypeless tiene licencia MIT y es gratis para siempre. Creo que las grandes herramientas deben ser accesibles para todos. El modelo de código abierto permite que la comunidad contribuya proveedores, corrija errores y amplíe la funcionalidad. También significa que nunca estás atado: si OpenTypeless desaparece mañana, tú sigues teniendo el código. Varios colaboradores ya han añadido adaptadores de proveedores y mejoras en la interfaz, y el proyecto da la bienvenida a pull requests de cualquier persona.
Si estás cansado de la entrada de voz que no termina de funcionar, dale una oportunidad a OpenTypeless. Descárgalo desde nuestro sitio web, trae tus propias claves API y empieza a escribir con tu voz, en cualquier lugar. Consulta nuestra guía sobre cómo elegir el proveedor STT adecuado para obtener los mejores resultados según tu idioma y caso de uso.