OpenTypeless ile Tanışın: Gerçekten Çalışan Sesli Giriş
Sesli giriş yıllardır var, ama hiçbir zaman istediğim gibi çalışmadı. Yerleşik dikte tek bir sağlayıcıyla sınırlı, üçüncü taraf araçlar abonelik gerektiriyor ve çıktı her zaman ciddi düzenleme gerektiriyor. Temelden daha iyi bir şey istiyordum — sesten metne dönüşüm sürecinin her aşamasında tam kontrol sağlayan bir araç.
Sesli Girişin Sorunu
Bir geliştirici olarak günümün büyük bölümünü yazarak geçiriyorum. Sesli giriş saatlerce süren tekrarlayan işlerden tasarruf sağlayabilirdi, ancak mevcut çözümler kritik noktalarda yetersiz kalıyordu. Tek bir konuşmadan metne motoruna kilitliydiler ve geçiş yapma imkanı yoktu. Çıktıyı düzeltemiyorlardı — dolgu kelimeleri ve eksik noktalama işaretleriyle dolu ham transkripsiyon alıyordunuz. Teknik terimlerle de iyi çalışmıyorlardı; 'PostgreSQL' her seferinde 'post gres siquel' oluyordu.
Bulabildiğim her sesli giriş aracını denedim. macOS Dikte günlük metinler için idare ederdi ama kod tartışmaları için berbattı. Windows Konuşma Tanıma 2005'ten kalma bir kalıntı gibiydi. Otter.ai ve Whisper tabanlı araçlar gibi üçüncü taraf uygulamalar daha iyiydi, ama hepsinin aynı temel sorunu vardı: işlem hattını özelleştiremiyordunuz. Hangi STT motorunu seçtilerse, hangi son işlemeyi uyguladılarsa ve hangi kısıtlamaları koydularsa onlarla yetinmek zorundaydınız.
- STT sağlayıcı seçeneği yok — tek bir motora kilitli
- Yapay zeka düzeltmesi yok — dolgu kelimeleri ve dilbilgisi hatalarıyla dolu ham transkripsiyon
- Zayıf teknik terim desteği — 'React' küçük harfle 'react' oluyor, 'PostgreSQL' anlamsız bir şeye dönüşüyor
- Özel sözlük yok — projeye özel terimleri öğretemiyorsunuz
- Abonelik fiyatlandırması — bir yardımcı araç olması gereken şey için aylık ödeme yapıyorsunuz
OpenTypeless'u Neden Geliştirdim
Kendi sağlayıcılarımı seçmeme izin veren, konuşmamı otomatik olarak düzelten ve masaüstümdeki herhangi bir uygulamada çalışan bir araca ihtiyacım vardı. Bir web uygulaması değil, bir tarayıcı eklentisi değil — sesi genel olarak yakalayabilen ve düzeltilmiş metni her yere yapıştırabilen gerçek bir yerel masaüstü uygulaması. Temel kavrayış şuydu: sesli giriş aslında bir işlem hattı sorunudur — mikrofon yakalama, konuşmadan metne dönüştürme, yapay zeka metin düzeltme ve pano çıktısı. Her aşama bağımsız olarak yapılandırılabilir olmalıydı.
Mimariye Derinlemesine Bakış
OpenTypeless, performans ve genişletilebilirlik için tasarlanmış modern bir masaüstü teknoloji yığını üzerine inşa edilmiştir. Mimari, sorumlulukları temiz bir şekilde ayırır: yerel kabuk sistem entegrasyonunu, kullanıcı arayüzü katmanı kullanıcı etkileşimini ve sağlayıcı sistemi tüm harici API iletişimini yönetir.
Tauri Masaüstü Kabuğu
Tauri yerel masaüstü kabuğunu sağlar — arka uçta Rust kullanılması mükemmel performans, küçük ikili dosya boyutu (10MB'ın altında) ve güçlü güvenlik anlamına gelir. Electron'dan farklı olarak Tauri, Chromium paketlemek yerine sistemin yerel webview'ını kullanır ve bu da bellek kullanımını önemli ölçüde azaltır. Rust arka ucu ses yakalama, genel kısayol tuşu kaydı, pano yönetimi ve sistem tepsisi entegrasyonunu yönetir. Bunların hepsi yerel işletim sistemi erişimi gerektiren ve Rust'ın performans özelliklerinden yararlanan işlemlerdir.
React + TypeScript Ön Yüz
Kullanıcı arayüzü React ve TypeScript ile geliştirilmiştir; tam tip güvenliğiyle tanıdık bir geliştirme deneyimi sunar. Ön yüz, kayıt kontrollerini, ayarlar panelini, metin önizlemesini ve sağlayıcı yapılandırmasını yönetir. Durum yönetimi basittir — React'in yerleşik hook'ları yerel durumu yönetir ve Tauri'nin IPC köprüsü sistem işlemleri için Rust arka ucuyla iletişim kurar.
Sağlayıcı Sistemi
Sağlayıcı sistemi, OpenTypeless'un en önemli mimari kararıdır. Tek bir STT motoru veya LLM'yi sabit kodlamak yerine, OpenTypeless herhangi bir sağlayıcının uygulayabileceği temiz bir arayüz tanımlar. Yeni bir sağlayıcı eklemek basit bir adaptör uygulamak demektir — işlem hattının geri kalanı değişmez.
Şu anda OpenTypeless, 6 STT sağlayıcısını (Deepgram Nova-3, OpenAI Whisper, Groq Whisper, GLM-ASR, AssemblyAI ve SiliconFlow) ve metin düzeltme için 11 LLM sağlayıcısını desteklemektedir. Her sağlayıcının farklı güçlü yönleri vardır — Deepgram İngilizce doğruluğunda öne çıkar, Groq en düşük gecikmeyi sunar, GLM-ASR Çince için optimize edilmiştir ve Ollama tamamen çevrimdışı olarak bilgisayarınızda çalışır.
Yapay Zeka Metin Düzeltme
Ham konuşmadan metne çıktısı doğası gereği düzensizdir. İnsanlar 'şey', 'yani', 'hani' gibi ifadeler kullanır — bu konuşmada normaldir ama yazılı metinde berbat görünür. OpenTypeless'un yapay zeka düzeltme adımı, ham transkripsiyonu seçtiğiniz LLM'ye özenle hazırlanmış bir istemle gönderir; dilbilgisini düzeltir, noktalama ekler, dolgu kelimelerini kaldırır ve metni doğal bir şekilde biçimlendirir. Özel sözlük özelliği, teknik terimlerin tam olarak tanımladığınız şekilde korunmasını sağlar.
Tasarımda Gizlilik Önceliği
OpenTypeless'da gizlilik sonradan eklenen bir özellik değil — temel bir tasarım ilkesidir. API anahtarlarınız bilgisayarınızda yerel olarak saklanır, asla sunucularımızda değil. Ses, bilgisayarınızdan doğrudan seçtiğiniz STT sağlayıcısına gönderilir — arada OpenTypeless sunucusu yoktur. Telemetri toplamıyoruz, kullanımı izlemiyoruz ve transkripsiyonlarınıza erişimimiz yok. Kod tamamen açık kaynak olduğu için her iddiayı doğrulayabilirsiniz.
Açık Kaynak Felsefesi
OpenTypeless, MIT lisansı altındadır ve sonsuza kadar ücretsizdir. Harika araçların herkes için erişilebilir olması gerektiğine inanıyorum. Açık kaynak modeli, topluluğun sağlayıcı ekleyebileceği, hataları düzeltebileceği ve işlevselliği genişletebileceği anlamına gelir. Ayrıca asla kilitli kalmayacağınız anlamına da gelir — OpenTypeless yarın ortadan kaybolsa bile kodunuz elinizde kalır. Birçok katkıda bulunan zaten sağlayıcı adaptörleri ve kullanıcı arayüzü iyileştirmeleri ekledi ve proje herkesten gelen pull request'leri memnuniyetle karşılıyor.
Tam olarak çalışmayan sesli girişten bıktıysanız, OpenTypeless'u bir deneyin. Web sitemizden indirin, kendi API anahtarlarınızı getirin ve sesinizle yazmaya başlayın — her yerde. Diliniz ve kullanım senaryonuz için en iyi sonuçları almak üzere doğru STT sağlayıcısını seçme rehberimize göz atın.