Apresentando o OpenTypeless: Entrada de Voz Que Realmente Funciona
A entrada de voz existe há anos, mas nunca funcionou do jeito que eu queria. O ditado nativo é limitado a um único provedor, ferramentas de terceiros exigem assinaturas, e o resultado sempre precisa de muita edição. Eu queria algo fundamentalmente melhor — uma ferramenta que desse controle total sobre cada etapa do pipeline de voz para texto.
O Problema da Entrada de Voz
Como desenvolvedor, passo a maior parte do dia digitando. A entrada de voz poderia economizar horas de trabalho repetitivo, mas as soluções existentes falhavam em pontos críticos. Eram presas a um único motor de fala para texto, sem possibilidade de troca. Não conseguiam polir o resultado — você recebia uma transcrição bruta cheia de palavras de preenchimento e sem pontuação. E não lidavam bem com vocabulário técnico, transformando 'PostgreSQL' em 'post gress sequel' toda vez.
Testei todas as ferramentas de entrada de voz que encontrei. O Ditado do macOS era razoável para texto casual, mas péssimo para discussões sobre código. O Reconhecimento de Fala do Windows parecia uma relíquia de 2005. Apps de terceiros como Otter.ai e ferramentas baseadas no Whisper eram melhores, mas todos tinham o mesmo problema fundamental: você não podia personalizar o pipeline. Ficava preso ao motor STT que eles escolheram, ao pós-processamento que implementaram e às limitações que impuseram.
- Sem escolha de provedor STT — preso a um único motor
- Sem polimento por IA — transcrição bruta com palavras de preenchimento e problemas gramaticais
- Vocabulário técnico ruim — 'React' vira 'react', 'PostgreSQL' vira algo incompreensível
- Sem dicionário personalizado — impossível ensinar termos específicos do seu projeto
- Preço por assinatura — pagando mensalmente por algo que deveria ser um utilitário
Por Que Eu Criei o OpenTypeless
Eu precisava de uma ferramenta que me permitisse escolher meus próprios provedores, limpasse automaticamente minha fala e funcionasse em qualquer aplicativo no meu desktop. Não um app web, não uma extensão de navegador — um aplicativo desktop nativo de verdade, capaz de capturar áudio globalmente e colar texto polido em qualquer lugar. O insight principal foi que a entrada de voz é, na verdade, um problema de pipeline: captura do microfone, conversão de fala para texto, polimento por IA e saída para a área de transferência. Cada etapa deveria ser configurável de forma independente.
Mergulho na Arquitetura
O OpenTypeless é construído sobre uma stack desktop moderna, projetada para desempenho e extensibilidade. A arquitetura separa as responsabilidades de forma clara: o shell nativo cuida da integração com o sistema, a camada de UI cuida da interação com o usuário, e o sistema de provedores cuida de toda a comunicação com APIs externas.
Shell Desktop Tauri
O Tauri fornece o shell desktop nativo — Rust no backend significa excelente desempenho, binário minúsculo (menos de 10MB) e segurança robusta. Diferente do Electron, o Tauri usa a webview nativa do sistema em vez de empacotar o Chromium, resultando em uso de memória drasticamente menor. O backend em Rust cuida da captura de áudio, registro de atalho global, gerenciamento da área de transferência e integração com a bandeja do sistema. São todas operações que precisam de acesso nativo ao SO e se beneficiam das características de desempenho do Rust.
Frontend React + TypeScript
A interface é construída com React e TypeScript, proporcionando uma experiência de desenvolvimento familiar com total segurança de tipos. O frontend cuida dos controles de gravação, painel de configurações, pré-visualização de texto e configuração de provedores. O gerenciamento de estado é direto — os hooks nativos do React cuidam do estado local, e a ponte IPC do Tauri se comunica com o backend Rust para operações do sistema.
O Sistema de Provedores
O sistema de provedores é a decisão arquitetural mais importante do OpenTypeless. Em vez de fixar um único motor STT ou LLM no código, o OpenTypeless define uma interface limpa que qualquer provedor pode implementar. Adicionar um novo provedor significa implementar um adaptador simples — o restante do pipeline não muda.
Atualmente, o OpenTypeless suporta 6 provedores STT (Deepgram Nova-3, OpenAI Whisper, Groq Whisper, GLM-ASR, AssemblyAI e SiliconFlow) e 11 provedores LLM para polimento de texto. Cada provedor tem pontos fortes diferentes — o Deepgram se destaca na precisão em inglês, o Groq oferece a menor latência, o GLM-ASR é otimizado para chinês, e o Ollama roda totalmente offline na sua máquina.
Polimento de Texto por IA
A saída bruta de fala para texto é bagunçada por natureza. As pessoas dizem 'hm', 'tipo', 'sabe' — e tudo bem numa conversa, mas é terrível em texto escrito. A etapa de polimento por IA do OpenTypeless envia a transcrição bruta para o LLM escolhido com um prompt cuidadosamente elaborado que corrige gramática, adiciona pontuação, remove palavras de preenchimento e formata o texto de forma natural. O recurso de dicionário personalizado garante que termos técnicos sejam preservados exatamente como você os definiu.
Privacidade por Design
A privacidade não é um detalhe secundário no OpenTypeless — é um princípio central de design. Suas chaves API são armazenadas localmente na sua máquina, nunca nos nossos servidores. O áudio é enviado diretamente do seu computador para o provedor STT escolhido — não existe um servidor do OpenTypeless no meio. Não coletamos telemetria, não rastreamos uso e não temos acesso às suas transcrições. O código é totalmente open source, então você pode verificar cada afirmação.
Filosofia de Código Aberto
O OpenTypeless tem licença MIT e é grátis para sempre. Acredito que ótimas ferramentas devem ser acessíveis a todos. O modelo open source significa que a comunidade pode contribuir com provedores, corrigir bugs e estender funcionalidades. Também significa que você nunca fica preso — se o OpenTypeless desaparecer amanhã, você ainda tem o código. Vários colaboradores já adicionaram adaptadores de provedores e melhorias na interface, e o projeto aceita pull requests de qualquer pessoa.
Se você está cansado de entrada de voz que não funciona direito, experimente o OpenTypeless. Baixe no nosso site, traga suas próprias chaves API e comece a digitar com sua voz — em qualquer lugar. Confira nosso guia sobre como escolher o provedor STT certo para obter os melhores resultados para seu idioma e caso de uso.