Apresentando o OpenTypeless: Entrada de Voz Que Realmente Funciona

15 de janeiro de 2026|Por tover0314|10 min de leitura

A entrada de voz existe há anos, mas nunca funcionou do jeito que eu queria. O ditado nativo é limitado a um único provedor, ferramentas de terceiros exigem assinaturas, e o resultado sempre precisa de muita edição. Eu queria algo fundamentalmente melhor — uma ferramenta que desse controle total sobre cada etapa do pipeline de voz para texto.

O Problema da Entrada de Voz

Como desenvolvedor, passo a maior parte do dia digitando. A entrada de voz poderia economizar horas de trabalho repetitivo, mas as soluções existentes falhavam em pontos críticos. Eram presas a um único motor de fala para texto, sem possibilidade de troca. Não conseguiam polir o resultado — você recebia uma transcrição bruta cheia de palavras de preenchimento e sem pontuação. E não lidavam bem com vocabulário técnico, transformando 'PostgreSQL' em 'post gress sequel' toda vez.

Testei todas as ferramentas de entrada de voz que encontrei. O Ditado do macOS era razoável para texto casual, mas péssimo para discussões sobre código. O Reconhecimento de Fala do Windows parecia uma relíquia de 2005. Apps de terceiros como Otter.ai e ferramentas baseadas no Whisper eram melhores, mas todos tinham o mesmo problema fundamental: você não podia personalizar o pipeline. Ficava preso ao motor STT que eles escolheram, ao pós-processamento que implementaram e às limitações que impuseram.

Sem escolha de provedor STT — preso a um único motor
Sem polimento por IA — transcrição bruta com palavras de preenchimento e problemas gramaticais
Vocabulário técnico ruim — 'React' vira 'react', 'PostgreSQL' vira algo incompreensível
Sem dicionário personalizado — impossível ensinar termos específicos do seu projeto
Preço por assinatura — pagando mensalmente por algo que deveria ser um utilitário

Por Que Eu Criei o OpenTypeless

Eu precisava de uma ferramenta que me permitisse escolher meus próprios provedores, limpasse automaticamente minha fala e funcionasse em qualquer aplicativo no meu desktop. Não um app web, não uma extensão de navegador — um aplicativo desktop nativo de verdade, capaz de capturar áudio globalmente e colar texto polido em qualquer lugar. O insight principal foi que a entrada de voz é, na verdade, um problema de pipeline: captura do microfone, conversão de fala para texto, polimento por IA e saída para a área de transferência. Cada etapa deveria ser configurável de forma independente.

TIPA filosofia central do OpenTypeless: Você traz suas próprias chaves API, escolhe seus próprios provedores e mantém o controle total. Sem intermediários, sem assinatura, sem dependência de fornecedor.

Mergulho na Arquitetura

O OpenTypeless é construído sobre uma stack desktop moderna, projetada para desempenho e extensibilidade. A arquitetura separa as responsabilidades de forma clara: o shell nativo cuida da integração com o sistema, a camada de UI cuida da interação com o usuário, e o sistema de provedores cuida de toda a comunicação com APIs externas.

Diagrama de arquitetura do OpenTypeless mostrando o shell Tauri, a UI React e o sistema de provedores — Arquitetura em camadas do OpenTypeless: shell desktop Tauri, UI React e sistema modular de provedores

Shell Desktop Tauri

O Tauri fornece o shell desktop nativo — Rust no backend significa excelente desempenho, binário minúsculo (menos de 10MB) e segurança robusta. Diferente do Electron, o Tauri usa a webview nativa do sistema em vez de empacotar o Chromium, resultando em uso de memória drasticamente menor. O backend em Rust cuida da captura de áudio, registro de atalho global, gerenciamento da área de transferência e integração com a bandeja do sistema. São todas operações que precisam de acesso nativo ao SO e se beneficiam das características de desempenho do Rust.

Frontend React + TypeScript

A interface é construída com React e TypeScript, proporcionando uma experiência de desenvolvimento familiar com total segurança de tipos. O frontend cuida dos controles de gravação, painel de configurações, pré-visualização de texto e configuração de provedores. O gerenciamento de estado é direto — os hooks nativos do React cuidam do estado local, e a ponte IPC do Tauri se comunica com o backend Rust para operações do sistema.

O Sistema de Provedores

O sistema de provedores é a decisão arquitetural mais importante do OpenTypeless. Em vez de fixar um único motor STT ou LLM no código, o OpenTypeless define uma interface limpa que qualquer provedor pode implementar. Adicionar um novo provedor significa implementar um adaptador simples — o restante do pipeline não muda.

Atualmente, o OpenTypeless suporta 6 provedores STT (Deepgram Nova-3, OpenAI Whisper, Groq Whisper, GLM-ASR, AssemblyAI e SiliconFlow) e 11 provedores LLM para polimento de texto. Cada provedor tem pontos fortes diferentes — o Deepgram se destaca na precisão em inglês, o Groq oferece a menor latência, o GLM-ASR é otimizado para chinês, e o Ollama roda totalmente offline na sua máquina.

Fluxo de entrada de voz: Microfone para STT para LLM para Área de Transferência — O pipeline de entrada de voz: Mic → Provedor STT → Polimento LLM → Área de Transferência

Polimento de Texto por IA

A saída bruta de fala para texto é bagunçada por natureza. As pessoas dizem 'hm', 'tipo', 'sabe' — e tudo bem numa conversa, mas é terrível em texto escrito. A etapa de polimento por IA do OpenTypeless envia a transcrição bruta para o LLM escolhido com um prompt cuidadosamente elaborado que corrige gramática, adiciona pontuação, remove palavras de preenchimento e formata o texto de forma natural. O recurso de dicionário personalizado garante que termos técnicos sejam preservados exatamente como você os definiu.

TalkMoreFileEditViewWindowHelp

9:41 AM

TalkMore

Ready

Transcription

AI Polishing...

um so basically I think that the the meeting went pretty well and we should uh probably follow up with them next week about the proposal

Loading animation…

Privacidade por Design

A privacidade não é um detalhe secundário no OpenTypeless — é um princípio central de design. Suas chaves API são armazenadas localmente na sua máquina, nunca nos nossos servidores. O áudio é enviado diretamente do seu computador para o provedor STT escolhido — não existe um servidor do OpenTypeless no meio. Não coletamos telemetria, não rastreamos uso e não temos acesso às suas transcrições. O código é totalmente open source, então você pode verificar cada afirmação.

TIPFluxo dos seus dados: Seu microfone → Seu provedor STT escolhido → Seu LLM escolhido → Sua área de transferência. O OpenTypeless nunca vê seu áudio ou texto.

Filosofia de Código Aberto

O OpenTypeless tem licença MIT e é grátis para sempre. Acredito que ótimas ferramentas devem ser acessíveis a todos. O modelo open source significa que a comunidade pode contribuir com provedores, corrigir bugs e estender funcionalidades. Também significa que você nunca fica preso — se o OpenTypeless desaparecer amanhã, você ainda tem o código. Vários colaboradores já adicionaram adaptadores de provedores e melhorias na interface, e o projeto aceita pull requests de qualquer pessoa.

Se você está cansado de entrada de voz que não funciona direito, experimente o OpenTypeless. Baixe no nosso site, traga suas próprias chaves API e comece a digitar com sua voz — em qualquer lugar. Confira nosso guia sobre como escolher o provedor STT certo para obter os melhores resultados para seu idioma e caso de uso.