Presentamos OpenTypeless: Entrada de Voz que Realmente Funciona

·tover0314·10 min de lectura

La entrada de voz existe desde hace años, pero nunca funcionó como yo quería. El dictado integrado está limitado a un solo proveedor, las herramientas de terceros requieren suscripciones, y el resultado siempre necesita mucha edición. Yo quería algo fundamentalmente mejor: una herramienta que te diera control total sobre cada parte del proceso de voz a texto.

El problema con la entrada de voz

Como desarrollador, paso la mayor parte del día escribiendo. La entrada de voz podría ahorrar horas de trabajo repetitivo, pero las soluciones existentes fallaban en aspectos críticos. Estaban atadas a un solo motor de reconocimiento de voz sin posibilidad de cambiar. No podían pulir el resultado: obtenías una transcripción en bruto llena de muletillas y sin puntuación. Y no funcionaban bien con vocabulario técnico, convirtiendo 'PostgreSQL' en 'post gress sequel' una y otra vez.

Probé todas las herramientas de entrada de voz que encontré. El Dictado de macOS era aceptable para texto casual pero terrible para discusiones de código. El Reconocimiento de Voz de Windows parecía una reliquia de 2005. Aplicaciones de terceros como Otter.ai y herramientas basadas en Whisper eran mejores, pero todas tenían el mismo problema fundamental: no podías personalizar el proceso. Estabas atado al motor STT que ellos elegían, al posprocesamiento que implementaban y a las limitaciones que imponían.

  • Sin elección de proveedor STT — atado a un solo motor
  • Sin pulido con IA — transcripción en bruto con muletillas y errores gramaticales
  • Vocabulario técnico deficiente — 'React' se convierte en 'react', 'PostgreSQL' en algo ininteligible
  • Sin diccionario personalizado — no puedes enseñarle los términos específicos de tu proyecto
  • Precio por suscripción — pagando mensualmente por algo que debería ser una utilidad básica

Por qué construí OpenTypeless

Necesitaba una herramienta que me permitiera elegir mis propios proveedores, que limpiara automáticamente mi dictado y que funcionara en cualquier aplicación de mi escritorio. No una app web, no una extensión de navegador, sino una aplicación de escritorio nativa capaz de capturar audio globalmente y pegar texto pulido en cualquier lugar. La idea clave fue que la entrada de voz es realmente un problema de pipeline: captura de micrófono, conversión de voz a texto, pulido de texto con IA y salida al portapapeles. Cada etapa debería ser configurable de forma independiente.

💡La filosofía central de OpenTypeless: tú traes tus propias claves API, eliges tus propios proveedores y mantienes el control total. Sin intermediarios, sin suscripciones, sin dependencia de un solo proveedor.

Arquitectura a fondo

OpenTypeless está construido sobre un stack de escritorio moderno diseñado para rendimiento y extensibilidad. La arquitectura separa responsabilidades de forma clara: la capa nativa se encarga de la integración con el sistema, la capa de interfaz gestiona la interacción con el usuario, y el sistema de proveedores maneja toda la comunicación con APIs externas.

Diagrama de arquitectura de OpenTypeless mostrando la capa Tauri, la interfaz React y el sistema de proveedores
Arquitectura por capas de OpenTypeless: capa de escritorio Tauri, interfaz React y sistema modular de proveedores

Capa de escritorio Tauri

Tauri proporciona la capa nativa de escritorio. Rust en el backend significa un rendimiento excelente, un binario diminuto (menos de 10 MB) y una seguridad robusta. A diferencia de Electron, Tauri usa el webview nativo del sistema en lugar de incluir Chromium, lo que reduce drásticamente el consumo de memoria. El backend en Rust se encarga de la captura de audio, el registro del atajo global, la gestión del portapapeles y la integración con la bandeja del sistema. Todas estas operaciones necesitan acceso nativo al sistema operativo y se benefician de las características de rendimiento de Rust.

Frontend con React + TypeScript

La interfaz está construida con React y TypeScript, ofreciendo una experiencia de desarrollo familiar con seguridad de tipos completa. El frontend gestiona los controles de grabación, el panel de configuración, la vista previa del texto y la configuración de proveedores. La gestión de estado es sencilla: los hooks integrados de React manejan el estado local, y el puente IPC de Tauri se comunica con el backend en Rust para las operaciones del sistema.

El sistema de proveedores

El sistema de proveedores es la decisión arquitectónica más importante de OpenTypeless. En lugar de codificar un solo motor STT o LLM, OpenTypeless define una interfaz limpia que cualquier proveedor puede implementar. Agregar un nuevo proveedor significa implementar un adaptador simple; el resto del pipeline no cambia.

Actualmente, OpenTypeless soporta 6 proveedores STT (Deepgram Nova-3, OpenAI Whisper, Groq Whisper, GLM-ASR, AssemblyAI y SiliconFlow) y 11 proveedores LLM para el pulido de texto. Cada proveedor tiene fortalezas diferentes: Deepgram destaca en precisión para inglés, Groq ofrece la menor latencia, GLM-ASR está optimizado para chino, y Ollama funciona completamente sin conexión en tu máquina.

Flujo de entrada de voz: Micrófono a STT a LLM a Portapapeles
El pipeline de entrada de voz: Micrófono → Proveedor STT → Pulido LLM → Portapapeles

Pulido de texto con IA

La salida de voz a texto en bruto es desordenada por naturaleza. La gente dice 'eh', 'o sea', '¿sabes?' — y eso está bien en una conversación, pero es terrible en texto escrito. El paso de pulido con IA de OpenTypeless envía la transcripción en bruto al LLM que hayas elegido con un prompt cuidadosamente diseñado que corrige la gramática, añade puntuación, elimina muletillas y da formato al texto de forma natural. La función de diccionario personalizado asegura que los términos técnicos se conserven exactamente como los defines.

Loading animation…

Privacidad desde el diseño

La privacidad no es algo secundario en OpenTypeless, es un principio de diseño fundamental. Tus claves API se almacenan localmente en tu máquina, nunca en nuestros servidores. El audio se envía directamente desde tu computadora al proveedor STT que elijas; no hay ningún servidor de OpenTypeless en el medio. No recopilamos telemetría, no rastreamos el uso y no tenemos acceso a tus transcripciones. El código es completamente de código abierto, así que puedes verificar cada afirmación.

💡Tu flujo de datos: Tu micrófono → Tu proveedor STT elegido → Tu LLM elegido → Tu portapapeles. OpenTypeless nunca ve tu audio ni tu texto.

Filosofía de código abierto

OpenTypeless tiene licencia MIT y es gratis para siempre. Creo que las grandes herramientas deben ser accesibles para todos. El modelo de código abierto permite que la comunidad contribuya proveedores, corrija errores y amplíe la funcionalidad. También significa que nunca estás atado: si OpenTypeless desaparece mañana, tú sigues teniendo el código. Varios colaboradores ya han añadido adaptadores de proveedores y mejoras en la interfaz, y el proyecto da la bienvenida a pull requests de cualquier persona.

Si estás cansado de la entrada de voz que no termina de funcionar, dale una oportunidad a OpenTypeless. Descárgalo desde nuestro sitio web, trae tus propias claves API y empieza a escribir con tu voz, en cualquier lugar. Consulta nuestra guía sobre cómo elegir el proveedor STT adecuado para obtener los mejores resultados según tu idioma y caso de uso.