OpenTypeless का परिचय: वॉइस इनपुट जो वास्तव में काम करता है
वॉइस इनपुट कई सालों से मौजूद है, लेकिन यह कभी भी उस तरह काम नहीं करता था जैसा मैं चाहता था। बिल्ट-इन डिक्टेशन एक ही प्रोवाइडर तक सीमित है, थर्ड-पार्टी टूल्स के लिए सब्सक्रिप्शन चाहिए, और आउटपुट को हमेशा भारी एडिटिंग की ज़रूरत होती है। मुझे कुछ बुनियादी रूप से बेहतर चाहिए था — एक ऐसा टूल जो आपको वॉइस-टू-टेक्स्ट पाइपलाइन के हर हिस्से पर पूरा नियंत्रण दे।
वॉइस इनपुट की समस्या
एक डेवलपर के रूप में, मैं अपना अधिकांश दिन टाइपिंग में बिताता हूँ। वॉइस इनपुट से घंटों की दोहराव वाली मेहनत बच सकती थी, लेकिन मौजूदा समाधान कई महत्वपूर्ण मामलों में कमज़ोर थे। वे एक ही स्पीच-टू-टेक्स्ट इंजन तक सीमित थे और स्विच करने का कोई तरीका नहीं था। वे आउटपुट को पॉलिश नहीं कर सकते थे — आपको फ़िलर शब्दों और गायब विराम चिह्नों से भरा कच्चा ट्रांसक्रिप्शन मिलता था। और तकनीकी शब्दावली के साथ वे ठीक से काम नहीं करते थे — हर बार 'PostgreSQL' को 'पोस्ट ग्रेस सीक्वल' बना देते थे।
मैंने हर उपलब्ध वॉइस इनपुट टूल आज़माया। macOS डिक्टेशन सामान्य टेक्स्ट के लिए ठीक था लेकिन कोड चर्चा के लिए बेकार। Windows स्पीच रिकग्निशन 2005 के ज़माने का लगता था। Otter.ai और Whisper-आधारित टूल जैसे थर्ड-पार्टी ऐप्स बेहतर थे, लेकिन सबकी एक ही बुनियादी समस्या थी: आप पाइपलाइन को कस्टमाइज़ नहीं कर सकते थे। आप उनके चुने हुए STT इंजन, उनकी पोस्ट-प्रोसेसिंग, और उनकी सीमाओं में बंधे रहते थे।
- STT प्रोवाइडर चुनने की आज़ादी नहीं — एक ही इंजन तक सीमित
- AI पॉलिशिंग नहीं — फ़िलर शब्दों और व्याकरण की गलतियों से भरा कच्चा ट्रांसक्रिप्शन
- तकनीकी शब्दावली में कमज़ोर — 'React' बन जाता 'react', 'PostgreSQL' बन जाता बकवास
- कस्टम डिक्शनरी नहीं — अपने प्रोजेक्ट-विशिष्ट शब्द सिखा नहीं सकते
- सब्सक्रिप्शन मूल्य — जो एक यूटिलिटी होनी चाहिए उसके लिए हर महीने भुगतान
मैंने OpenTypeless क्यों बनाया
मुझे एक ऐसा टूल चाहिए था जो मुझे अपने प्रोवाइडर चुनने दे, मेरी बोली को अपने आप साफ़ करे, और मेरे डेस्कटॉप पर किसी भी एप्लिकेशन में काम करे। कोई वेब ऐप नहीं, कोई ब्राउज़र एक्सटेंशन नहीं — एक सही मायने में नेटिव डेस्कटॉप एप्लिकेशन जो ग्लोबली ऑडियो कैप्चर कर सके और कहीं भी पॉलिश्ड टेक्स्ट पेस्ट कर सके। मुख्य अंतर्दृष्टि यह थी कि वॉइस इनपुट वास्तव में एक पाइपलाइन समस्या है: माइक्रोफ़ोन कैप्चर, स्पीच-टू-टेक्स्ट कन्वर्शन, AI टेक्स्ट पॉलिशिंग, और क्लिपबोर्ड आउटपुट। हर चरण स्वतंत्र रूप से कॉन्फ़िगर करने योग्य होना चाहिए।
आर्किटेक्चर की गहराई में
OpenTypeless एक आधुनिक डेस्कटॉप स्टैक पर बना है जो प्रदर्शन और विस्तारशीलता के लिए डिज़ाइन किया गया है। आर्किटेक्चर चिंताओं को स्पष्ट रूप से अलग करता है: नेटिव शेल सिस्टम इंटीग्रेशन संभालता है, UI लेयर यूज़र इंटरैक्शन संभालती है, और प्रोवाइडर सिस्टम सभी बाहरी API संचार संभालता है।
Tauri डेस्कटॉप शेल
Tauri नेटिव डेस्कटॉप शेल प्रदान करता है — बैकएंड के लिए Rust का मतलब है शानदार प्रदर्शन, छोटा बाइनरी साइज़ (10MB से कम), और मज़बूत सुरक्षा। Electron के विपरीत, Tauri Chromium बंडल करने की बजाय सिस्टम के नेटिव वेबव्यू का उपयोग करता है, जिससे मेमोरी उपयोग नाटकीय रूप से कम होता है। Rust बैकएंड ऑडियो कैप्चर, ग्लोबल हॉटकी रजिस्ट्रेशन, क्लिपबोर्ड प्रबंधन, और सिस्टम ट्रे इंटीग्रेशन संभालता है। ये सभी ऑपरेशन हैं जिन्हें नेटिव OS एक्सेस की ज़रूरत होती है और जो Rust के प्रदर्शन गुणों से लाभान्वित होते हैं।
React + TypeScript फ्रंटएंड
UI React और TypeScript से बना है, जो पूर्ण टाइप सेफ्टी के साथ एक परिचित डेवलपमेंट अनुभव प्रदान करता है। फ्रंटएंड रिकॉर्डिंग कंट्रोल, सेटिंग्स पैनल, टेक्स्ट प्रीव्यू, और प्रोवाइडर कॉन्फ़िगरेशन संभालता है। स्टेट मैनेजमेंट सीधा है — React के बिल्ट-इन हुक्स लोकल स्टेट संभालते हैं, और Tauri का IPC ब्रिज सिस्टम ऑपरेशन के लिए Rust बैकएंड से संवाद करता है।
प्रोवाइडर सिस्टम
प्रोवाइडर सिस्टम OpenTypeless का सबसे महत्वपूर्ण आर्किटेक्चरल निर्णय है। एक ही STT इंजन या LLM को हार्डकोड करने की बजाय, OpenTypeless एक साफ़ इंटरफ़ेस परिभाषित करता है जिसे कोई भी प्रोवाइडर लागू कर सकता है। नया प्रोवाइडर जोड़ने का मतलब है एक सरल एडाप्टर बनाना — बाकी पाइपलाइन नहीं बदलती।
वर्तमान में, OpenTypeless 6 STT प्रोवाइडर (Deepgram Nova-3, OpenAI Whisper, Groq Whisper, GLM-ASR, AssemblyAI, और SiliconFlow) और टेक्स्ट पॉलिशिंग के लिए 11 LLM प्रोवाइडर का समर्थन करता है। हर प्रोवाइडर की अलग-अलग ताकतें हैं — Deepgram अंग्रेज़ी सटीकता में उत्कृष्ट है, Groq सबसे कम विलंबता देता है, GLM-ASR चीनी के लिए अनुकूलित है, और Ollama पूरी तरह ऑफ़लाइन आपकी मशीन पर चलता है।
AI टेक्स्ट पॉलिशिंग
कच्चा स्पीच-टू-टेक्स्ट आउटपुट स्वभाव से गड़बड़ होता है। लोग 'अम्म', 'जैसे कि', 'आप जानते हैं' कहते हैं — और बातचीत में यह ठीक है, लेकिन लिखित टेक्स्ट में यह भयानक लगता है। OpenTypeless का AI पॉलिशिंग चरण कच्चे ट्रांसक्रिप्शन को आपके चुने हुए LLM को एक सावधानी से तैयार किए गए प्रॉम्प्ट के साथ भेजता है जो व्याकरण ठीक करता है, विराम चिह्न जोड़ता है, फ़िलर शब्द हटाता है, और टेक्स्ट को स्वाभाविक रूप से फ़ॉर्मेट करता है। कस्टम डिक्शनरी सुविधा सुनिश्चित करती है कि तकनीकी शब्द ठीक वैसे ही संरक्षित रहें जैसा आपने उन्हें परिभाषित किया है।
डिज़ाइन से गोपनीयता
OpenTypeless में गोपनीयता बाद का विचार नहीं है — यह एक मूल डिज़ाइन सिद्धांत है। आपकी API कुंजियाँ आपकी मशीन पर स्थानीय रूप से संग्रहीत होती हैं, कभी हमारे सर्वर पर नहीं। ऑडियो सीधे आपके कंप्यूटर से आपके चुने हुए STT प्रोवाइडर को भेजा जाता है — बीच में कोई OpenTypeless सर्वर नहीं है। हम टेलीमेट्री एकत्र नहीं करते, उपयोग ट्रैक नहीं करते, और आपके ट्रांसक्रिप्शन तक हमारी पहुँच नहीं है। कोड पूरी तरह ओपन सोर्स है, ताकि आप हर दावे की पुष्टि कर सकें।
ओपन सोर्स दर्शन
OpenTypeless MIT लाइसेंस के तहत है और हमेशा मुफ्त रहेगा। मेरा मानना है कि बेहतरीन टूल सबके लिए सुलभ होने चाहिए। ओपन-सोर्स मॉडल का मतलब है कि समुदाय प्रोवाइडर जोड़ सकता है, बग ठीक कर सकता है, और कार्यक्षमता बढ़ा सकता है। इसका यह भी मतलब है कि आप कभी बंधे नहीं हैं — अगर OpenTypeless कल गायब हो जाए, तो भी आपके पास कोड है। कई योगदानकर्ताओं ने पहले ही प्रोवाइडर एडाप्टर और UI सुधार जोड़े हैं, और प्रोजेक्ट किसी के भी पुल रिक्वेस्ट का स्वागत करता है।
अगर आप ऐसे वॉइस इनपुट से थक गए हैं जो ठीक से काम नहीं करता, तो OpenTypeless आज़माएँ। हमारी वेबसाइट से डाउनलोड करें, अपनी API कुंजियाँ लाएँ, और अपनी आवाज़ से टाइप करना शुरू करें — कहीं भी। अपनी भाषा और उपयोग के लिए सबसे अच्छे परिणाम पाने के लिए सही STT प्रोवाइडर चुनने की हमारी गाइड देखें।