تقديم OpenTypeless: إدخال صوتي يعمل فعلاً
الإدخال الصوتي موجود منذ سنوات، لكنه لم يعمل أبداً بالطريقة التي أريدها. الإملاء المدمج مقيّد بمزود واحد، والأدوات الخارجية تتطلب اشتراكات، والنتيجة دائماً تحتاج تعديلاً كثيراً. أردت شيئاً أفضل جوهرياً — أداة تمنحك تحكماً كاملاً في كل جزء من مسار تحويل الصوت إلى نص.
مشكلة الإدخال الصوتي
كمطور، أقضي معظم يومي في الكتابة. الإدخال الصوتي يمكن أن يوفر ساعات من العمل المتكرر، لكن الحلول الموجودة كانت قاصرة في نواحٍ جوهرية. كانت مقيّدة بمحرك واحد لتحويل الكلام إلى نص دون إمكانية التبديل. لم تكن قادرة على تنقيح النتيجة — كنت تحصل على نص خام مليء بالكلمات الحشوية وعلامات الترقيم المفقودة. ولم تتعامل جيداً مع المصطلحات التقنية، فتحوّل 'PostgreSQL' إلى 'بوست غريس سيكويل' في كل مرة.
جربت كل أداة إدخال صوتي وجدتها. إملاء macOS كان مقبولاً للنصوص العادية لكنه سيئ لنقاشات البرمجة. التعرف على الكلام في Windows بدا وكأنه من عام 2005. التطبيقات الخارجية مثل Otter.ai والأدوات المبنية على Whisper كانت أفضل، لكنها جميعاً عانت من نفس المشكلة الجوهرية: لا يمكنك تخصيص المسار. كنت عالقاً مع أي محرك STT اختاروه، وأي معالجة لاحقة طبّقوها، وأي قيود فرضوها.
- لا خيار في مزود STT — مقيّد بمحرك واحد
- لا تنقيح بالذكاء الاصطناعي — نص خام مع كلمات حشوية ومشاكل نحوية
- ضعف في المصطلحات التقنية — 'React' تصبح 'react' و'PostgreSQL' تصبح كلاماً غير مفهوم
- لا قاموس مخصص — لا يمكنك تعليمه مصطلحات مشروعك
- تسعير بالاشتراك — دفع شهري لشيء يجب أن يكون أداة أساسية
لماذا بنيت OpenTypeless
كنت بحاجة لأداة تتيح لي اختيار مزوديّ الخاصين، وتنظّف كلامي تلقائياً، وتعمل في أي تطبيق على سطح المكتب. ليس تطبيق ويب، وليس إضافة متصفح — بل تطبيق سطح مكتب أصلي حقيقي يمكنه التقاط الصوت على مستوى النظام ولصق النص المنقّح في أي مكان. الفكرة الجوهرية كانت أن الإدخال الصوتي هو في الحقيقة مشكلة مسار معالجة: التقاط الميكروفون، تحويل الكلام إلى نص، تنقيح النص بالذكاء الاصطناعي، والإخراج عبر الحافظة. كل مرحلة يجب أن تكون قابلة للتكوين بشكل مستقل.
نظرة معمّقة في البنية المعمارية
بُني OpenTypeless على مكدس سطح مكتب حديث مصمم للأداء والقابلية للتوسع. تفصل البنية المعمارية المسؤوليات بوضوح: الغلاف الأصلي يتولى التكامل مع النظام، وطبقة واجهة المستخدم تتولى التفاعل مع المستخدم، ونظام المزودين يتولى جميع الاتصالات مع واجهات API الخارجية.
غلاف سطح المكتب Tauri
يوفر Tauri غلاف سطح المكتب الأصلي — استخدام Rust في الواجهة الخلفية يعني أداءً ممتازاً وحجم ملف صغيراً (أقل من 10 ميغابايت) وأماناً قوياً. على عكس Electron، يستخدم Tauri عارض الويب الأصلي للنظام بدلاً من تضمين Chromium، مما يؤدي إلى استهلاك ذاكرة أقل بشكل كبير. تتولى الواجهة الخلفية بـ Rust التقاط الصوت وتسجيل مفتاح الاختصار العام وإدارة الحافظة والتكامل مع شريط النظام. هذه كلها عمليات تحتاج وصولاً أصلياً لنظام التشغيل وتستفيد من خصائص أداء Rust.
واجهة React + TypeScript الأمامية
بُنيت واجهة المستخدم بـ React و TypeScript، مما يوفر تجربة تطوير مألوفة مع أمان كامل للأنواع. تتولى الواجهة الأمامية عناصر التحكم في التسجيل ولوحة الإعدادات ومعاينة النص وتكوين المزودين. إدارة الحالة بسيطة — خطافات React المدمجة تتولى الحالة المحلية، وجسر IPC الخاص بـ Tauri يتواصل مع الواجهة الخلفية بـ Rust لعمليات النظام.
نظام المزودين
نظام المزودين هو أهم قرار معماري في OpenTypeless. بدلاً من تثبيت محرك STT واحد أو LLM واحد في الكود، يعرّف OpenTypeless واجهة نظيفة يمكن لأي مزود تنفيذها. إضافة مزود جديد تعني تنفيذ محوّل بسيط — بقية المسار لا تتغير.
حالياً، يدعم OpenTypeless 6 مزودي STT (Deepgram Nova-3 و OpenAI Whisper و Groq Whisper و GLM-ASR و AssemblyAI و SiliconFlow) و11 مزود LLM لتنقيح النص. لكل مزود نقاط قوة مختلفة — Deepgram يتفوق في دقة الإنجليزية، و Groq يقدم أقل تأخير، و GLM-ASR محسّن للصينية، و Ollama يعمل بالكامل دون اتصال على جهازك.
تنقيح النص بالذكاء الاصطناعي
نتيجة تحويل الكلام إلى نص الخام فوضوية بطبيعتها. الناس يقولون 'آه' و'يعني' و'تعرف' — وهذا مقبول في المحادثة، لكنه سيئ في النص المكتوب. خطوة التنقيح بالذكاء الاصطناعي في OpenTypeless ترسل النص الخام إلى نموذج LLM الذي تختاره مع موجّه مصمم بعناية يصلح القواعد ويضيف علامات الترقيم ويزيل الكلمات الحشوية وينسّق النص بشكل طبيعي. ميزة القاموس المخصص تضمن الحفاظ على المصطلحات التقنية تماماً كما حددتها.
الخصوصية في صميم التصميم
الخصوصية ليست فكرة لاحقة في OpenTypeless — إنها مبدأ تصميمي أساسي. تُخزّن مفاتيح API الخاصة بك محلياً على جهازك، ولا تُرسل أبداً إلى خوادمنا. يُرسل الصوت مباشرة من حاسوبك إلى مزود STT الذي تختاره — لا يوجد خادم OpenTypeless في المنتصف. لا نجمع بيانات القياس عن بُعد، ولا نتتبع الاستخدام، وليس لدينا وصول إلى نصوصك المحوّلة. الكود مفتوح المصدر بالكامل، لذا يمكنك التحقق من كل ادعاء.
فلسفة المصادر المفتوحة
OpenTypeless مرخص تحت MIT ومجاني للأبد. أؤمن بأن الأدوات الرائعة يجب أن تكون متاحة للجميع. نموذج المصادر المفتوحة يعني أن المجتمع يمكنه المساهمة بمزودين جدد وإصلاح الأخطاء وتوسيع الوظائف. كما يعني أنك لن تكون مقيّداً أبداً — إذا اختفى OpenTypeless غداً، فلا يزال لديك الكود. عدة مساهمين أضافوا بالفعل محوّلات مزودين وتحسينات لواجهة المستخدم، والمشروع يرحب بطلبات السحب من أي شخص.
إذا سئمت من الإدخال الصوتي الذي لا يعمل كما ينبغي، جرّب OpenTypeless. حمّله من موقعنا، واستخدم مفاتيح API الخاصة بك، وابدأ الكتابة بصوتك — في أي مكان. اطّلع على دليلنا لاختيار مزود STT المناسب للحصول على أفضل النتائج للغتك وحالة استخدامك.