OpenTypeless ile Tanışın: Gerçekten Çalışan Sesli Giriş

·tover0314·10 dk okuma süresi

Sesli giriş yıllardır var, ama hiçbir zaman istediğim gibi çalışmadı. Yerleşik dikte tek bir sağlayıcıyla sınırlı, üçüncü taraf araçlar abonelik gerektiriyor ve çıktı her zaman ciddi düzenleme gerektiriyor. Temelden daha iyi bir şey istiyordum — sesten metne dönüşüm sürecinin her aşamasında tam kontrol sağlayan bir araç.

Sesli Girişin Sorunu

Bir geliştirici olarak günümün büyük bölümünü yazarak geçiriyorum. Sesli giriş saatlerce süren tekrarlayan işlerden tasarruf sağlayabilirdi, ancak mevcut çözümler kritik noktalarda yetersiz kalıyordu. Tek bir konuşmadan metne motoruna kilitliydiler ve geçiş yapma imkanı yoktu. Çıktıyı düzeltemiyorlardı — dolgu kelimeleri ve eksik noktalama işaretleriyle dolu ham transkripsiyon alıyordunuz. Teknik terimlerle de iyi çalışmıyorlardı; 'PostgreSQL' her seferinde 'post gres siquel' oluyordu.

Bulabildiğim her sesli giriş aracını denedim. macOS Dikte günlük metinler için idare ederdi ama kod tartışmaları için berbattı. Windows Konuşma Tanıma 2005'ten kalma bir kalıntı gibiydi. Otter.ai ve Whisper tabanlı araçlar gibi üçüncü taraf uygulamalar daha iyiydi, ama hepsinin aynı temel sorunu vardı: işlem hattını özelleştiremiyordunuz. Hangi STT motorunu seçtilerse, hangi son işlemeyi uyguladılarsa ve hangi kısıtlamaları koydularsa onlarla yetinmek zorundaydınız.

  • STT sağlayıcı seçeneği yok — tek bir motora kilitli
  • Yapay zeka düzeltmesi yok — dolgu kelimeleri ve dilbilgisi hatalarıyla dolu ham transkripsiyon
  • Zayıf teknik terim desteği — 'React' küçük harfle 'react' oluyor, 'PostgreSQL' anlamsız bir şeye dönüşüyor
  • Özel sözlük yok — projeye özel terimleri öğretemiyorsunuz
  • Abonelik fiyatlandırması — bir yardımcı araç olması gereken şey için aylık ödeme yapıyorsunuz

OpenTypeless'u Neden Geliştirdim

Kendi sağlayıcılarımı seçmeme izin veren, konuşmamı otomatik olarak düzelten ve masaüstümdeki herhangi bir uygulamada çalışan bir araca ihtiyacım vardı. Bir web uygulaması değil, bir tarayıcı eklentisi değil — sesi genel olarak yakalayabilen ve düzeltilmiş metni her yere yapıştırabilen gerçek bir yerel masaüstü uygulaması. Temel kavrayış şuydu: sesli giriş aslında bir işlem hattı sorunudur — mikrofon yakalama, konuşmadan metne dönüştürme, yapay zeka metin düzeltme ve pano çıktısı. Her aşama bağımsız olarak yapılandırılabilir olmalıydı.

💡OpenTypeless'un temel felsefesi: Kendi API anahtarlarınızı getirin, kendi sağlayıcılarınızı seçin ve tam kontrolü elinizde tutun. Aracı yok, abonelik yok, sağlayıcı bağımlılığı yok.

Mimariye Derinlemesine Bakış

OpenTypeless, performans ve genişletilebilirlik için tasarlanmış modern bir masaüstü teknoloji yığını üzerine inşa edilmiştir. Mimari, sorumlulukları temiz bir şekilde ayırır: yerel kabuk sistem entegrasyonunu, kullanıcı arayüzü katmanı kullanıcı etkileşimini ve sağlayıcı sistemi tüm harici API iletişimini yönetir.

Tauri kabuğu, React kullanıcı arayüzü ve sağlayıcı sistemini gösteren OpenTypeless mimari diyagramı
OpenTypeless'un katmanlı mimarisi: Tauri masaüstü kabuğu, React kullanıcı arayüzü ve modüler sağlayıcı sistemi

Tauri Masaüstü Kabuğu

Tauri yerel masaüstü kabuğunu sağlar — arka uçta Rust kullanılması mükemmel performans, küçük ikili dosya boyutu (10MB'ın altında) ve güçlü güvenlik anlamına gelir. Electron'dan farklı olarak Tauri, Chromium paketlemek yerine sistemin yerel webview'ını kullanır ve bu da bellek kullanımını önemli ölçüde azaltır. Rust arka ucu ses yakalama, genel kısayol tuşu kaydı, pano yönetimi ve sistem tepsisi entegrasyonunu yönetir. Bunların hepsi yerel işletim sistemi erişimi gerektiren ve Rust'ın performans özelliklerinden yararlanan işlemlerdir.

React + TypeScript Ön Yüz

Kullanıcı arayüzü React ve TypeScript ile geliştirilmiştir; tam tip güvenliğiyle tanıdık bir geliştirme deneyimi sunar. Ön yüz, kayıt kontrollerini, ayarlar panelini, metin önizlemesini ve sağlayıcı yapılandırmasını yönetir. Durum yönetimi basittir — React'in yerleşik hook'ları yerel durumu yönetir ve Tauri'nin IPC köprüsü sistem işlemleri için Rust arka ucuyla iletişim kurar.

Sağlayıcı Sistemi

Sağlayıcı sistemi, OpenTypeless'un en önemli mimari kararıdır. Tek bir STT motoru veya LLM'yi sabit kodlamak yerine, OpenTypeless herhangi bir sağlayıcının uygulayabileceği temiz bir arayüz tanımlar. Yeni bir sağlayıcı eklemek basit bir adaptör uygulamak demektir — işlem hattının geri kalanı değişmez.

Şu anda OpenTypeless, 6 STT sağlayıcısını (Deepgram Nova-3, OpenAI Whisper, Groq Whisper, GLM-ASR, AssemblyAI ve SiliconFlow) ve metin düzeltme için 11 LLM sağlayıcısını desteklemektedir. Her sağlayıcının farklı güçlü yönleri vardır — Deepgram İngilizce doğruluğunda öne çıkar, Groq en düşük gecikmeyi sunar, GLM-ASR Çince için optimize edilmiştir ve Ollama tamamen çevrimdışı olarak bilgisayarınızda çalışır.

Sesli giriş iş akışı: Mikrofon → STT → LLM → Pano
Sesli giriş işlem hattı: Mikrofon → STT Sağlayıcı → LLM Düzeltme → Pano

Yapay Zeka Metin Düzeltme

Ham konuşmadan metne çıktısı doğası gereği düzensizdir. İnsanlar 'şey', 'yani', 'hani' gibi ifadeler kullanır — bu konuşmada normaldir ama yazılı metinde berbat görünür. OpenTypeless'un yapay zeka düzeltme adımı, ham transkripsiyonu seçtiğiniz LLM'ye özenle hazırlanmış bir istemle gönderir; dilbilgisini düzeltir, noktalama ekler, dolgu kelimelerini kaldırır ve metni doğal bir şekilde biçimlendirir. Özel sözlük özelliği, teknik terimlerin tam olarak tanımladığınız şekilde korunmasını sağlar.

Loading animation…

Tasarımda Gizlilik Önceliği

OpenTypeless'da gizlilik sonradan eklenen bir özellik değil — temel bir tasarım ilkesidir. API anahtarlarınız bilgisayarınızda yerel olarak saklanır, asla sunucularımızda değil. Ses, bilgisayarınızdan doğrudan seçtiğiniz STT sağlayıcısına gönderilir — arada OpenTypeless sunucusu yoktur. Telemetri toplamıyoruz, kullanımı izlemiyoruz ve transkripsiyonlarınıza erişimimiz yok. Kod tamamen açık kaynak olduğu için her iddiayı doğrulayabilirsiniz.

💡Veri akışınız: Mikrofonunuz → Seçtiğiniz STT sağlayıcı → Seçtiğiniz LLM → Panonuz. OpenTypeless sesinizi veya metninizi asla görmez.

Açık Kaynak Felsefesi

OpenTypeless, MIT lisansı altındadır ve sonsuza kadar ücretsizdir. Harika araçların herkes için erişilebilir olması gerektiğine inanıyorum. Açık kaynak modeli, topluluğun sağlayıcı ekleyebileceği, hataları düzeltebileceği ve işlevselliği genişletebileceği anlamına gelir. Ayrıca asla kilitli kalmayacağınız anlamına da gelir — OpenTypeless yarın ortadan kaybolsa bile kodunuz elinizde kalır. Birçok katkıda bulunan zaten sağlayıcı adaptörleri ve kullanıcı arayüzü iyileştirmeleri ekledi ve proje herkesten gelen pull request'leri memnuniyetle karşılıyor.

Tam olarak çalışmayan sesli girişten bıktıysanız, OpenTypeless'u bir deneyin. Web sitemizden indirin, kendi API anahtarlarınızı getirin ve sesinizle yazmaya başlayın — her yerde. Diliniz ve kullanım senaryonuz için en iyi sonuçları almak üzere doğru STT sağlayıcısını seçme rehberimize göz atın.