الجمعة، مارس 05، 2010

برنامج التعرف على الكلام والإملاء الصوتي


برنامج التعرف على الكلام والإملاء الصوتي والتي تتطلب وضع أنظمة برمجية قادرة على استيعاب الكلام وتحويل ما يتم نطقه من نصوص مكتوبة على الشاشة مباشرة , فاللغة المكتوبة في نص تبقى على مضمونها كائناً من كان يقرأها وأي كان الشكل الذي تقدم فيه في حين أن طريقة النطق بكلمات النص المكتوب ذاته قد تختلف حسب لهجة قارئه , ونبرة صوته والخلفية الثقافية التي يأتي منها اختلاف اللهجات بين الأمريكية والإنجليزية , مثلاً بين اللهجة السورية واللبنانية , وفي برامج التعرف على الكلام قد تمر جملتين مختلفتين يمكنهما أن تحملا المعنى ذاته بالرغم من اختلاف شكلهما المكتوب والمنطوق وكما هو معروف فإن كافة اللغات تعتمد على ما يصدر من المتحدث من أصوات تشكل هذه الأصوات فحوى الأحرف أو الكلمات أو الجمل والعبارات التي تنتج عنها الأصوات وذلك بفعل مرور الهواء من الرئتين عبر الأوتار الصوتية ليتم تشكيلها بواسطة اللسان والشفتين وثمة علاقة مباشرة بين وضعية اللسان والشفتين وترددات رنين الصوت التي تشكل مجتمعة ما يعرف بمخارج الأصوات " FORMANT " وهذه هي نقطة الأساس والانطلاق لتقنية التعرف على الكلام .
ونظام الصوت يحفظ عادة لائحة بالشكل الصوتي للفونيمات أي جدولاً لمواضع مخارج الحروف حيث يحفظها البرنامج ويتم مقارنة الترددات الصوتية الصادرة عن المستعمل لهذه الترددات والجدول هذا يرتكز إلى نموذج عام للكلام كان من الضروري تدريب النظام على صوت مستعمله وطريقة كلامه .
·نظام التعرف على الكلام :
إن هذا النظام يقسم إلى قسمين الأول تحويل الكلام إلى نص والثاني تحويل النص إلى كلام .
والقسم الثاني يتم بواسطة جهاز الماسح الضوئي SCANNER حيث يتم من خلال هذا الجهاز إجراء عملية مسح للنصوص وتحويلها إلى كلام من خلال برامج متنوعة كبرنامج : قارئ المحارف العربية وهذا يتضمن الترجيع الكلامي من جهاز الكمبيوتر الشخصي حيث ظهرت بعض الرزم للتعرف على الكلام تضمن محركاً لتحويل النص إلى كلام ليتمكن المستعمل من استماع إلى ما أملاه بينات المستعمل الكلامية .
ملاحظة : الترجيع الكلامي يمكن استخدامه لشرائح الصم والبكم وذلك من خلال جهاز الكمبيوتر الذي يحتاج إلى عرض رسومي للشفاة تفهمها شريحة معوقي الصم والبكم في التعامل مع الكمبيوتر .
هناك مشاكل يمكن أن نلخصها بما يلي :
1-مشاكل الأحرف المتشابهة أو المتقاربة في طريقة اللفظ مثل الضجيج الذي يرافق الكلام لذلك يتم استعمال ميكرفون مع جهاز للرأس ( مانع ضجيج , سماعة الكمبيوتر الشخصي ) .
3-الفواصل الزمنية بين الكلمة والأخرى أثناء الإملاء الصوتي كانت مشكلة وحل في آن واحد .
4-عند إملاء كلمات تتشابه صوتياً وتختلف كتابة مثل boat bought .
5-لفظ مخارج أصوات غير واضحة .
6-تغيير طبقة الصوت حيث يعتمد على تقنية النمذجة اللغوية ويمكن استخدامها على برامج التدقيق لغوي , حيث يظهر في أمثلة متنوعة عدد المرات التي تظهر فيها كلمة بالتزام مع كلمة أخرى وتبدأ عملية الاحتمالات .
كيف يبدأ المستعمل بالإملاء الصوتي ؟
يعمد البرنامج إلى تحليل ما يتم لفظه من قبل المستثمر ثم يقوم البرنامج ببناء هيكلية تسلسلية من الاحتمالات . وتظهر الهيكلية التسلسلية كل تركيبات الفونيمات المحتملة وكل الكلمات التي تشكل هذه التركيبات .
وإن التركيبة التي لديها الاحتمال الأعلى هي التي يتم اختبارها ولكن هذا لا يعني إهمال التركيبات الأخرى وبالتالي نستخلص :
" إن استعمال هيكلية تسلسلية للاحتمالات مع تعدد الفروع هو سبب حاجة رزم التعرف على الكلام في أجهزة الكمبيوتر إلى سعة ذاكرة كبيرة فكل عقدة من كل فرع من سلسلة الاحتمالات يجب حفظها في الذاكرة .. حتى تنتهي الجملة "
ما هي العوامل المؤثرة في أداء الإملاء الصوتي ؟
إن تحديد متطلبات العمل لاستخدام هذا النظام واختبار البرنامج المناسب والتأكد من أن الجهاز سريع وقادر على العمل بسرعة مقبولة : أي سرعة المعالج 2400 Mhz تصل إلى 2800 Mhz وذاكرة الرام تتراوح بين 256 – 512ميغابايت .
بطاقة صوت متوافقة مع البرنامج مع وضع سماعة للرأس مع مايكرفون من نوع جيد جداً واستخدام جهاز للرأس أيضاً بميكرفون متراكب يزيل تأثير الضجيج ويضمن صدور صوت المستعمل من على مسافة واحدة وهنا تأتي فعالية التدريب الذي يتلقاه البرنامج ليتمكن من التعرف على الكلام المستعمل .. ويجب أن تكون هناك خبرة جيدة للمستثمر لإمكانية التعامل مع برنامج الإملاء الصوتي ويمكن تعديل البرنامج حسب حاجة المستعمل باستخدام وإضافة المفردات التي تجمع أكثر من جملة في أمر واحد مثل " إدراج " النصوص التلقائية " .
·الإملاء الصوتي إلى أين وصل ؟
·إذاً : مما تقدم يمكن القول إن الباحث بنى تجربته على عوامل متعددة وتساؤلات مثل :
العلاقات بين منظومة اللسانيات العربية والنظام المعلوماتي كان لا بد من استخدام الوسيط الرياضي لحل هذه المشكلة .
إن وجود الوسيط الرياضي لعناصر لغتنا البشرية الذي يسمى النمذجة الرياضية يساعد على حل المشكلة فإخضاع اللغة للعمليات الرياضية ليست جديدة على لغتنا العربية وإنما هي قديمة قدم معرفة علمائنا بالرياضيات والعلاقات الرياضية .
تأكيد وتطوير هذه العلاقة من خلال أنظمة الكمبيوتر المستجدة على الساحة العلمية العالمية ومن خلال فهم آلية عمل البرنامج الصوتي , ونظم التعرف على الكلام وإيجاد برنامج يقوم بالإصغاء إلى الإنسان وترجمة ما ينطق به عبر المعالجات على شكل منظومات رياضية وجداول تطابقية لتحويل ما يتم نطقه من حروف هجائية ومفردات وجمل ونصوص أو أوامر يفهمها النظام المعلوماتي دون اللجوء إلى معجم أو قاموس تم وضعه مسبقاً وإنما يكون الكلام مع الكمبيوتر بشكل مباشر عبر لاقط الصوت العادي أو اللاسلكي المرتبط ببطاقة صوتية .
إن كافة الشركات التي سعت في بحوثها من خلال برامج التلقين الصوتي اعتمدت في برامجها على قواميس تم إعدادها مسبقاً بحيث يقوم المستخدم بإجراء التدريب على مفردات هذه القواميس ليتم استخدامها أثناء الإملاء الصوتي كبرامج شركة " دراغون سيستم " أو برنامج " فويس بلاس 5.2 لشركة كرزويل أو برنامج شركة ( أي بي أم " من خلال إصداراتها السابقة وحتى الإصدار الثالث لبرنامج " فويس تايب سيمبلي سييكينغ " وبرنامج " فيافويس غولد " والذي يعتبر من أفضل البرامج التي شكلت ظاهرة معلوماتية جديدة بدأت تشق طريقها في بحوث الإملاء الصوتي للغة العربية ...!
لقد استبعدنا تماماً الحاجة إلى وجود معجم أو قاموس لغوي لأن ذلك يتطلب جهداً إضافياً وخبرة واسعة من قبل مستخدم البرنامج لذلك عمدنا إلى التلقين الصوتي المباشر عن طريق دراسة كل فونيم دراسة تحليلية دقيقة تجعلنا نضعه في حدود القدرة على تجاوب الكمبيوتر مع الملقن من غير اللجوء إلى معاجم .
لقد تم وضع كل فونيم ضمن قياس محدد ليكون قياساً نموذجاً يتجاوب من خلاله مع الأصوات كافة واللهجات المتنوعة .
لقد انصب اهتمامنا في بحثنا على فرعين أساسيين هما :
- دراسة البرمجيات ولغات البرمجي دراسة دقيقة .
- دراسة معمقة لقواعد اللغة العربية .
وقد شكل هذان الفرعان دراسة متكاملة بحيث استندنا في الدراسات اللغوية إلى علمّي الصوتيات والصرف وربطنا بين علوم اللغة وعلوم الكمبيوتر من خلال النقاط التالية :
- علم الدلالة – علم العلاقات – علم الأساليب " أسلوب المحاورة مع الكمبيوتر " – علم البلاغة .
واتخذنا ثلاثة نماذج صوتية عملت على تلقين الكمبيوتر بشكل غير متكلف أي إننا لم نختر نموذجاً أمثل لطريقة النطق ولكن أبقينا طريقة النطق
إيجاد علاقة تربط بين مجموعة النماذج الصوتية , ليتمكن أي ملقن فيما بعد , من أن يلقن الكمبيوتر دونما حاجة إلى تعلم كيفية النطق السليم للحروف أو الأصوات وهذا لا يعني إننا أهملنا بمخارج الحروف وبخصائص النطق لهذه الحروف لأنها ساعدتنا على إخراج الحروف إخراجاً ييسر لكل ملقن النطق بها دون حرج أوخروج على القاعدة الأساسية للنطق السليم .
فمنذ سنة ونيف وضعنا منهجاً دقيقاً لخطة العمل على الكمبيوتر من خلال برنامج التلقين الصوتي , واحتوى هذا المنهج على ثلاثة نقاط دراسية هامة هي :
·كيف يتعرف الكمبيوتر على الكلام المنطوق باللغة العربية ؟
·- ما هي العقبات التي تحول دون استخدام الكلام المنطوق في التعامل مع الكمبيوتر ؟
·ما هي الصعوبات التي يجب دراستها كي يتمكن الكمبيوتر من استيعابها ؟
كان محور الدراسة مع الكمبيوتر التعرف على الكلام المنطوق Speech Recognition .
لذلك تم العمل من خلال اللغة العربية ودراسة علم اللسانيات حيث وفقنا بين اللغة العربية وعلوم الكمبيوتر بواسطة برنامج الصرف الذي افتقر إلى ميزة التعامل مع الحرف العربي والقوائم العربية إضافة إلى برامج تقوم بإعدادها حالياً لتسخير هذه البرامج وتمكين كافة المتعاملين بها من الأصحاء والمعوقين في التعامل مع الكمبيوتر ببساطة بعيدة عن تعقيد اللغة وعلوم الكمبيوتر , وتم تقسيم نظم التعرف على الكلام إلى نوعين رئيسيين :
- الإملاء الصوتي .
- توجيه الأوامر إلى البرامج والتطبيقات للتعامل مع كافة خياراتها كأن نقول لبرنامج " مايكروسوفت وورد " افتح وورد – افتح ملف – حدد نص – تكبير خط - ....... الخ ) .
·- ليتم في هذه الحالة فتح البرنامج مباشرةً من خلال أوامر عملية صوتية وبالتالي فتح الملف وتحديده لإجراء عملية التنسيق والمعالجة المطلوبة عن طريق تخصيص أوامر جديدة لكل تطبيق تتوافق مع برنامج التعرف على الصوت لتمكين الأمر الصوتي المنطوق مع التطابق مع الخيار العربي المطلوب في القوائم .
من بحث للمهندس نبيل عبيد من مصر