الجمعة، يوليو 23، 2010

كيفية تجزئة النص العربي المكتوب بخط اليد

تعد عملية التعرف إلى الخط العربي المكتوب باليد عملية صعبة، وذلك بسبب الخصائص المختلفة التي تتميز بها اللغة العربية من غيرها من اللغات، فبالرغم من وجود تقنيات حديثة ومتقدمة للغات الأخرى، وظيفتها التعرف إلى النص، إلا أنه لا يمكن تطبيقها بسهولة على اللغة العربية.
إن أول خطوة أساسية لنظام التعرف إلى النص هي عملية تجزئة النص التي تلخص فكرة مشروع نظام تجزئة النص العربي المكتوب بخط اليد، حيث تتكون عملية التجزئة من ثلاث خطوات أساسية: الحصول على الصورة التي تحتوي على النص المكتوب بخط اليد من خلال الماسح الضوئي، المعالجة الأولية لصورة النص، مثل: (تحويل الصورة إلى صورة رقمية، إزالة الشوائب، عملية التنحيف) وعملية التجزئة وتتألف بدورها من ثلاث مراحل: التجزئة إلى أسطر، التجزئة إلى كلمات، التجزئة إلى أحرف.
يعتمد كثير من الأشخاص على الكتابة اليدوية في كل شيء، فمثلا نجد الطالبة تقوم بتدوين محاضراتها يدويا، وكذلك بالنسبة للمعلمة من ناحية تدوين الملاحظات و المذكرات… الخ. فهؤلاء بحاجة إلى أن تكون تلك النصوص المدونة بخط أيديهم، كنصوص مكتوبة على جهاز الحاسوب من أجل ترتيب النص، تنسيق النص، البحث عن كلمة محددة، أو التعديل على المحتوى نفسه.
لذلك هناك حاجة متزايدة لنظام التعرف إلى النصوص، الذي يقوم بتحويل الصورة التي تحتوي على النص المكتوب يدويا أو مطبوعا (مأخوذة من الماسح الضوئي أو الكاميرا) إلى صورة رقمية.
يهدف المشروع إلى تصميم وتنفيذ نظام تجزئة النص العربي المكتوب بخط اليد ويسعى إلى تحقيق نسبة جيدة من الدقة في أثناء عملية التجزئة، وذلك عن طريق استخدام مجموعة من الخوارزميات مثل: خوارزمية العناصر المتصلة، خوارزمية التنحيف، خوارزمية الإسقاط الأفقي، خوارزمية تتبع السلسلة، وخوارزمية الإسقاط العمودي.
إن صحة ودقة التجزئة لها دور كبير في خدمة المستفيدين منها في المرحلة التالية وهي مرحلة التعرف إلى الأحرف، فان مرحلة التعرف لا يمكن أن تكون صحيحة في حال أن مرحلة التجزئة كانت غير صحيحة.
كيفية عمل النظام
يدخل المستخدم النص المكتوب بخط اليد عن طريق جهاز الماسح الضوئي (Scanner) أو عن طريق استعراض صورة النص من أي مجلد في جهاز الكمبيوتر.
بعد ذلك يختار طريقة عرض البرنامج للنتائج (خطوة بخطوة/ النتيجة النهائية) و يبدأ البرنامج بالعمل حسب الخطوات التالية:
1- المعالجة الأولية (Pre-processing) وتشمل تحويل الصورة إلى صورة ثنائية (0/1)، وإزالة الشوائب التي تكون غالباً ناتجه من الماسح الضوئي.
2- الفصل بين الأسطر.
3- الفصل بين الكلمات أو أجزاء الكلمات، ويتم التفرقة بين الكلمة وجزء الكلمة في هذه الخطوة.
4- الفصل بين الأحرف، ولكن لتعدد أنواع الكتابة بخط اليد واختلافها فإن الفصل لا يكون صحيحا بنسبة 100%، لذلك يتم عمل معالجة نهائية للأحرف (Post-processing).
تعرض نتائج التجزئة للمستخدم على حسب طريقة العرض التي قام باختيارها.