تواجه اللغة العربية تحديات فريدة عند محاولة تقييم قابلية القراءة، ومن أبرز هذه التحديات:
- الغنى الصرفي: فالكلمة الواحدة قد تأخذ أشكالًا متعددة، ممّا يصعّب تحليل المفردات.
- التنوع اللغوي (الازدواجية): وجود الفصحى إلى جانب اللهجات المحلية يخلق فجوة في الفهم لدى بعض القراء.
- غياب التشكيل في كثير من النصوص: ما يؤدي إلى غموض في المعنى.
- مرونة التراكيب النحوية: مما يجعل من الصعب الاعتماد على مؤشرات بسيطة مثل طول الجملة.
هذه التحديات جعلت من الضروري تطوير أدوات أكثر دقة ومرونة لتقييم النصوص العربية.
هذه التحديات هي ما دفع فريق الباحثين في جامعة نيويورك أبوظبي، بالتعاون مع مركز زاي للغة العربية في جامعة زايد، إلى تطوير مشروع بارق (BAREC).
مشروع بارق (BAREC) وأهدافه
جاء مشروع بارق: وهو مدوّنة (قاعدة بيانات) متوازنة لتقييم قابلية قراءة النصوص العربية BAREC (Balanced Arabic Readability Evaluation Corpus) ليعالج هذه التحديات من خلال:
- إنشاء قاعدة بيانات ضخمة تضم حوالي 69 ألف جملة عربية.
- تصنيف هذه الجمل وفق 19 مستوى من قابلية القراءة، تبدأ من مستوى رياض الأطفال وصولًا إلى الدراسات العليا.
- الاعتماد على إطار تربوي معروف (هنادا طه/ عربي 21) لتحديد المستويات، الذي طورته الدكتورة هنادا طه تامور. يمتد هذا الإطار من المستوى الأول (وهو مستوى الروضة) حتى المستوى التاسع عشر (وهو مستوى الدراسات العليا). وتُصوَّر هذه المستويات على شكل هرم، حيث تتدرج الصعوبة تصاعدياً. ويمكن تجميع هذه المستويات في فئات أوسع (7 مستويات، أو 5، أو 3) بحسب حاجة المستخدم.
ويهدف المشروع إلى توفير أدوات تساعد المعلمين والباحثين وصناع المحتوى على اختيار النصوص المناسبة لمستوى القراء بدقة أكبر.
مكونات نظام بارق
يتكون النظام من جزأين رئيسيين:
واجهة البحث: تتيح هذه الواجهة للمستخدمين:
- البحث داخل قاعدة البيانات باستخدام كلمات أو أسماء مؤلفين أو عناوين كتب.
- الاطلاع على الجمل المصنفة مسبقًا مع مستوى صعوبتها.
- استكشاف النصوص وفق مجالات مختلفة مثل العلوم أو الأدب.
وتساعد هذه الأداة المعلمين في اختيار نصوص مناسبة للطلاب، كما تفيد الباحثين في تحليل اللغة.
-
واجهة التحليل: تمكن هذه الواجهة المستخدم من:
- إدخال نص عربي (قصير أو طويل).
- الحصول على تحليل فوري لمستوى قابلية القراءة لكل جملة.
- عرض النتائج في شكل: مستوى عام للنص و تحليل تفصيلي لكل جملة و شريط بصري يوضح درجة الصعوبة.
وهذا يسمح بتحديد الأجزاء الصعبة في النص بدقة، مما يسهل تبسيطها أو تعديلها.
قاعدة البيانات
تُعدُّ قاعدة بيانات بارق (BAREC) من أهم إنجازات المشروع، حيث:
- تحتوي على أكثر من مليون كلمة.
- تشمل مجالات متعددة مثل العلوم والعلوم الإنسانية.
- تغطي مستويات تعليمية مختلفة.
- جُمعت من قرابة 1922 مصدرًا.
- تم تصنيفها يدويًّا لضمان الجودة.
كما تم تحويل بعض النصوص غير الرقمية إلى صيغة مكتوبة يدويًا، مما يعكس الجهد الكبير في إعداد البيانات.
كيف يعمل نظام التحليل التلقائي؟
يعتمد نظام التحليل على نموذج ذكاء اصطناعي متطور يُسمى AraBERTv02، وهو نموذج لغوي كبير تم تدريبه خصيصًا على اللغة العربية. تمت إعادة تدريب هذا النموذج (أي ضبطه بدقة) باستخدام مجموعة BAREC، بحيث يتعلم كيفية الربط بين خصائص الجملة ومستوى المقروئية المناسب لها.
تم تدريب النموذج على معالج رسومي قوي (NVIDIA V100 GPU) لمدة ست دورات تدريبية، مع معدل تعلم محدد وحجم دفعة 64 جملة. والنتيجة هي نموذج يستطيع، بعد الانتهاء من التدريب، أن يتنبأ بمستوى مقروئية أي جملة عربية جديدة يدخلها المستخدم.
وقد أظهرت النتائج أن النموذج يحقق دقة تقارب 56% في التصنيف الدقيق.، كما أن الدقة ترتفع عند تقليل عدد المستويات. وغالبًا ما تكون التنبؤات قريبة من المستوى الصحيح.
تصميم النظام
عند تصميم المنصة، واجه المطورون تحديات تقنية يجب حلها لضمان تجربة مستخدم سلسة:
البحث النصي الفعّال في العربية: نظراً لتعقيدات الرسم العربي (مثل وجود الحركات، والمدة، وألفات الوصل والقطع، والألف المقصورة، والتاء المربوطة...)، تم تطبيق عمليات تطبيع إملائي على النصوص أثناء الفهرسة وأثناء البحث. مثلاً، البحث عن كلمة "تفسير" سيعيد أيضًا نتائج مثل "تفسيرها"، "تفسيرات"، و"يفسر". كما تم استخدام المطابقة الجزئية للتعامل مع الصرف العربي الغني.
بنية معيارية قابلة للتطوير: فُصلت واجهة المستخدم عن منطق البيانات وعن خدمات التحليل، مما يسهل الصيانة والتطوير المستقبلي.
واجهة ويب متجاوبة: صُممت الواجهة لتكون سهلة الاستخدام على مختلف الأجهزة، وتدعم اللغتين العربية والإنجليزية.
تواصل عبر واجهات برمجة تطبيقات (APIs): يتواصل الواجهة الأمامية مع الخلفية عبر واجهات API قياسية، مما يتيح إمكانية توسيع النظام ليشمل تطبيقات أخرى (مثل تطبيقات الهواتف) مستقبلاً.
تم بناء النظام وفق هيكل تقني حديث يتميز بـ:
- فصل الواجهة عن الخادم.
- استخدام قواعد بيانات قوية لتخزين النصوص.
- دعم البحث المتقدم في اللغة العربية عبر: إزالة التشكيل و توحيد أشكال الحروف و التعامل مع الاشتقاقات المختلفة للكلمات.
كما يعتمد على واجهات برمجية (APIs) تسهّل تطوير تطبيقات مستقبلية.