OpenTypeless का परिचय: वॉइस इनपुट जो वास्तव में काम करता है

·tover0314·10 मिनट पढ़ने का समय

वॉइस इनपुट कई सालों से मौजूद है, लेकिन यह कभी भी उस तरह काम नहीं करता था जैसा मैं चाहता था। बिल्ट-इन डिक्टेशन एक ही प्रोवाइडर तक सीमित है, थर्ड-पार्टी टूल्स के लिए सब्सक्रिप्शन चाहिए, और आउटपुट को हमेशा भारी एडिटिंग की ज़रूरत होती है। मुझे कुछ बुनियादी रूप से बेहतर चाहिए था — एक ऐसा टूल जो आपको वॉइस-टू-टेक्स्ट पाइपलाइन के हर हिस्से पर पूरा नियंत्रण दे।

वॉइस इनपुट की समस्या

एक डेवलपर के रूप में, मैं अपना अधिकांश दिन टाइपिंग में बिताता हूँ। वॉइस इनपुट से घंटों की दोहराव वाली मेहनत बच सकती थी, लेकिन मौजूदा समाधान कई महत्वपूर्ण मामलों में कमज़ोर थे। वे एक ही स्पीच-टू-टेक्स्ट इंजन तक सीमित थे और स्विच करने का कोई तरीका नहीं था। वे आउटपुट को पॉलिश नहीं कर सकते थे — आपको फ़िलर शब्दों और गायब विराम चिह्नों से भरा कच्चा ट्रांसक्रिप्शन मिलता था। और तकनीकी शब्दावली के साथ वे ठीक से काम नहीं करते थे — हर बार 'PostgreSQL' को 'पोस्ट ग्रेस सीक्वल' बना देते थे।

मैंने हर उपलब्ध वॉइस इनपुट टूल आज़माया। macOS डिक्टेशन सामान्य टेक्स्ट के लिए ठीक था लेकिन कोड चर्चा के लिए बेकार। Windows स्पीच रिकग्निशन 2005 के ज़माने का लगता था। Otter.ai और Whisper-आधारित टूल जैसे थर्ड-पार्टी ऐप्स बेहतर थे, लेकिन सबकी एक ही बुनियादी समस्या थी: आप पाइपलाइन को कस्टमाइज़ नहीं कर सकते थे। आप उनके चुने हुए STT इंजन, उनकी पोस्ट-प्रोसेसिंग, और उनकी सीमाओं में बंधे रहते थे।

  • STT प्रोवाइडर चुनने की आज़ादी नहीं — एक ही इंजन तक सीमित
  • AI पॉलिशिंग नहीं — फ़िलर शब्दों और व्याकरण की गलतियों से भरा कच्चा ट्रांसक्रिप्शन
  • तकनीकी शब्दावली में कमज़ोर — 'React' बन जाता 'react', 'PostgreSQL' बन जाता बकवास
  • कस्टम डिक्शनरी नहीं — अपने प्रोजेक्ट-विशिष्ट शब्द सिखा नहीं सकते
  • सब्सक्रिप्शन मूल्य — जो एक यूटिलिटी होनी चाहिए उसके लिए हर महीने भुगतान

मैंने OpenTypeless क्यों बनाया

मुझे एक ऐसा टूल चाहिए था जो मुझे अपने प्रोवाइडर चुनने दे, मेरी बोली को अपने आप साफ़ करे, और मेरे डेस्कटॉप पर किसी भी एप्लिकेशन में काम करे। कोई वेब ऐप नहीं, कोई ब्राउज़र एक्सटेंशन नहीं — एक सही मायने में नेटिव डेस्कटॉप एप्लिकेशन जो ग्लोबली ऑडियो कैप्चर कर सके और कहीं भी पॉलिश्ड टेक्स्ट पेस्ट कर सके। मुख्य अंतर्दृष्टि यह थी कि वॉइस इनपुट वास्तव में एक पाइपलाइन समस्या है: माइक्रोफ़ोन कैप्चर, स्पीच-टू-टेक्स्ट कन्वर्शन, AI टेक्स्ट पॉलिशिंग, और क्लिपबोर्ड आउटपुट। हर चरण स्वतंत्र रूप से कॉन्फ़िगर करने योग्य होना चाहिए।

💡OpenTypeless का मूल दर्शन: आप अपनी API कुंजियाँ लाएँ, अपने प्रोवाइडर चुनें, और पूरा नियंत्रण अपने पास रखें। कोई बिचौलिया नहीं, कोई सब्सक्रिप्शन नहीं, कोई वेंडर लॉक-इन नहीं।

आर्किटेक्चर की गहराई में

OpenTypeless एक आधुनिक डेस्कटॉप स्टैक पर बना है जो प्रदर्शन और विस्तारशीलता के लिए डिज़ाइन किया गया है। आर्किटेक्चर चिंताओं को स्पष्ट रूप से अलग करता है: नेटिव शेल सिस्टम इंटीग्रेशन संभालता है, UI लेयर यूज़र इंटरैक्शन संभालती है, और प्रोवाइडर सिस्टम सभी बाहरी API संचार संभालता है।

OpenTypeless आर्किटेक्चर डायग्राम जिसमें Tauri शेल, React UI, और प्रोवाइडर सिस्टम दिखाया गया है
OpenTypeless का लेयर्ड आर्किटेक्चर: Tauri डेस्कटॉप शेल, React UI, और मॉड्यूलर प्रोवाइडर सिस्टम

Tauri डेस्कटॉप शेल

Tauri नेटिव डेस्कटॉप शेल प्रदान करता है — बैकएंड के लिए Rust का मतलब है शानदार प्रदर्शन, छोटा बाइनरी साइज़ (10MB से कम), और मज़बूत सुरक्षा। Electron के विपरीत, Tauri Chromium बंडल करने की बजाय सिस्टम के नेटिव वेबव्यू का उपयोग करता है, जिससे मेमोरी उपयोग नाटकीय रूप से कम होता है। Rust बैकएंड ऑडियो कैप्चर, ग्लोबल हॉटकी रजिस्ट्रेशन, क्लिपबोर्ड प्रबंधन, और सिस्टम ट्रे इंटीग्रेशन संभालता है। ये सभी ऑपरेशन हैं जिन्हें नेटिव OS एक्सेस की ज़रूरत होती है और जो Rust के प्रदर्शन गुणों से लाभान्वित होते हैं।

React + TypeScript फ्रंटएंड

UI React और TypeScript से बना है, जो पूर्ण टाइप सेफ्टी के साथ एक परिचित डेवलपमेंट अनुभव प्रदान करता है। फ्रंटएंड रिकॉर्डिंग कंट्रोल, सेटिंग्स पैनल, टेक्स्ट प्रीव्यू, और प्रोवाइडर कॉन्फ़िगरेशन संभालता है। स्टेट मैनेजमेंट सीधा है — React के बिल्ट-इन हुक्स लोकल स्टेट संभालते हैं, और Tauri का IPC ब्रिज सिस्टम ऑपरेशन के लिए Rust बैकएंड से संवाद करता है।

प्रोवाइडर सिस्टम

प्रोवाइडर सिस्टम OpenTypeless का सबसे महत्वपूर्ण आर्किटेक्चरल निर्णय है। एक ही STT इंजन या LLM को हार्डकोड करने की बजाय, OpenTypeless एक साफ़ इंटरफ़ेस परिभाषित करता है जिसे कोई भी प्रोवाइडर लागू कर सकता है। नया प्रोवाइडर जोड़ने का मतलब है एक सरल एडाप्टर बनाना — बाकी पाइपलाइन नहीं बदलती।

वर्तमान में, OpenTypeless 6 STT प्रोवाइडर (Deepgram Nova-3, OpenAI Whisper, Groq Whisper, GLM-ASR, AssemblyAI, और SiliconFlow) और टेक्स्ट पॉलिशिंग के लिए 11 LLM प्रोवाइडर का समर्थन करता है। हर प्रोवाइडर की अलग-अलग ताकतें हैं — Deepgram अंग्रेज़ी सटीकता में उत्कृष्ट है, Groq सबसे कम विलंबता देता है, GLM-ASR चीनी के लिए अनुकूलित है, और Ollama पूरी तरह ऑफ़लाइन आपकी मशीन पर चलता है।

वॉइस इनपुट वर्कफ़्लो: माइक्रोफ़ोन से STT से LLM से क्लिपबोर्ड
वॉइस इनपुट पाइपलाइन: माइक → STT प्रोवाइडर → LLM पॉलिश → क्लिपबोर्ड

AI टेक्स्ट पॉलिशिंग

कच्चा स्पीच-टू-टेक्स्ट आउटपुट स्वभाव से गड़बड़ होता है। लोग 'अम्म', 'जैसे कि', 'आप जानते हैं' कहते हैं — और बातचीत में यह ठीक है, लेकिन लिखित टेक्स्ट में यह भयानक लगता है। OpenTypeless का AI पॉलिशिंग चरण कच्चे ट्रांसक्रिप्शन को आपके चुने हुए LLM को एक सावधानी से तैयार किए गए प्रॉम्प्ट के साथ भेजता है जो व्याकरण ठीक करता है, विराम चिह्न जोड़ता है, फ़िलर शब्द हटाता है, और टेक्स्ट को स्वाभाविक रूप से फ़ॉर्मेट करता है। कस्टम डिक्शनरी सुविधा सुनिश्चित करती है कि तकनीकी शब्द ठीक वैसे ही संरक्षित रहें जैसा आपने उन्हें परिभाषित किया है।

Loading animation…

डिज़ाइन से गोपनीयता

OpenTypeless में गोपनीयता बाद का विचार नहीं है — यह एक मूल डिज़ाइन सिद्धांत है। आपकी API कुंजियाँ आपकी मशीन पर स्थानीय रूप से संग्रहीत होती हैं, कभी हमारे सर्वर पर नहीं। ऑडियो सीधे आपके कंप्यूटर से आपके चुने हुए STT प्रोवाइडर को भेजा जाता है — बीच में कोई OpenTypeless सर्वर नहीं है। हम टेलीमेट्री एकत्र नहीं करते, उपयोग ट्रैक नहीं करते, और आपके ट्रांसक्रिप्शन तक हमारी पहुँच नहीं है। कोड पूरी तरह ओपन सोर्स है, ताकि आप हर दावे की पुष्टि कर सकें।

💡आपके डेटा का प्रवाह: आपका माइक → आपका चुना हुआ STT प्रोवाइडर → आपका चुना हुआ LLM → आपका क्लिपबोर्ड। OpenTypeless कभी आपका ऑडियो या टेक्स्ट नहीं देखता।

ओपन सोर्स दर्शन

OpenTypeless MIT लाइसेंस के तहत है और हमेशा मुफ्त रहेगा। मेरा मानना है कि बेहतरीन टूल सबके लिए सुलभ होने चाहिए। ओपन-सोर्स मॉडल का मतलब है कि समुदाय प्रोवाइडर जोड़ सकता है, बग ठीक कर सकता है, और कार्यक्षमता बढ़ा सकता है। इसका यह भी मतलब है कि आप कभी बंधे नहीं हैं — अगर OpenTypeless कल गायब हो जाए, तो भी आपके पास कोड है। कई योगदानकर्ताओं ने पहले ही प्रोवाइडर एडाप्टर और UI सुधार जोड़े हैं, और प्रोजेक्ट किसी के भी पुल रिक्वेस्ट का स्वागत करता है।

अगर आप ऐसे वॉइस इनपुट से थक गए हैं जो ठीक से काम नहीं करता, तो OpenTypeless आज़माएँ। हमारी वेबसाइट से डाउनलोड करें, अपनी API कुंजियाँ लाएँ, और अपनी आवाज़ से टाइप करना शुरू करें — कहीं भी। अपनी भाषा और उपयोग के लिए सबसे अच्छे परिणाम पाने के लिए सही STT प्रोवाइडर चुनने की हमारी गाइड देखें।