مركز زاي لبحوث اللغة العربية

العودة الى ترجمة البحث العلمي

مدوّنة كبيرة ومتوازنة لتقييم قابلية قراءة اللغة العربية بدقة تفصيلية

وصف عام للبحث
يُقدِّم هذا البحث "المجموعة المتوازنة لتقييم مقروئية النص العربي" (BAREC)، وهي مجموعة بيانات واسعة النطاق ودقيقة التصنيف مصمَّمة خصيصاً لتقييم مقروئية النصوص العربية. تتكون BAREC من 69,441 جملة، يزيد عدد كلماتها على مليون كلمة، وقد جُمعت بعناية لتغطي 19 مستوى من مستويات المقروئية، تبدأ من مرحلة الروضة وصولًا إلى مستوى الاستيعاب الجامعي (الدراسات العليا). وتتميز المجموعة بتوازنها من حيث تنوع الأنواع الأدبية، والتغطية الموضوعية، والفئات العمرية المستهدفة، مما يجعلها مصدرًا شاملًا لتقييم مدى تعقيد النص العربي. وقد تم ترميز المجموعة بالكامل يدويًّا على يد فريق كبير من المرمّزين. بلغ متوسط الاتفاق بين المرمّزين (المُقاس باستخدام معامل كابا الموزون تربيعيًّا) 81.8%، وهو ما يعكس درجة عالية من الاتفاق الجوهري. وإلى جانب تقديم المجموعة اللغوية، يقوم الباحثون في هذا البحث بقياس أداء التقييم التلقائي للمقروئية على مختلف مستويات التصنيف، ومقارنة مجموعة من التقنيات المختلفة. وتُبرز نتائج البحث التحديات والفرص المتاحة في مجال نمذجة المقروئية باللغة العربية، وتُظهر أداءً تنافسيًّا لمختلف الأساليب المُجرَّبة. دعمًا للبحث العلمي والتعليم، يتيح الباحثون مجموعة BAREC مفتوحة للجميع، إلى جانب دليل الترميز المفصّل.
يتناول المقال عرض مشروع متقدم في مجال معالجة اللغة العربية يُعرف باسم BAREC، وهو اختصار لـمدونة متوازنة لتقييم قابلية قراءة النصوص العربية. يهدف هذا المشروع إلى معالجة واحدة من أبرز القضايا في التعليم واللسانيات، وهي تحديد مدى صعوبة النصوص العربية، أي مدى سهولة قراءتها وفهمها من قبل القارئ.
تُعد قابلية القراءة عنصرًا حاسمًا في العملية التعليمية، إذ تؤثر مباشرة في فهم الطالب للنص، وسرعة قراءته، وقدرته على الاستيعاب والتفاعل. وقد بيّنت الدراسات أن النصوص التي تتجاوز مستوى القارئ قد تؤدي إلى فقدان الاهتمام وضعف التعلم.
الغرض من البحث
أولًا: مفهوم قابلية القراءة وأهميتها
تشير قابلية القراءة إلى مدى سهولة قراءة النص وفهمه، وذلك اعتمادًا على مجموعة من العوامل اللغوية، مثل:
- المفردات المستخدمة
- التركيب النحوي
- طول الجمل
- التعقيد الدلالي
وتكمن أهمية هذا المفهوم في كونه يساعد على:
- اختيار النصوص المناسبة لمستوى المتعلمين
- تحسين نتائج التعلم
- دعم تعليم اللغات
- تطوير مهارات القراءة والاستيعاب
وفي البيئات التعليمية، يُستخدم ما يُعرف بـ"تسوية النصوص" (Text leveling)، حيث يتم تصنيف النصوص وفق مستويات محددة تتناسب مع قدرات القراء المختلفة.

ثانيًا: التحديات الخاصة باللغة العربية
تواجه اللغة العربية صعوبات خاصة عند محاولة تقييم قابلية القراءة، ومن أبرزها:
- الغنى الصرفي: الكلمات العربية تتغير أشكالها بشكل كبير حسب السياق، مما يصعّب تحليلها.
- الازدواجية اللغوية: وجود الفصحى إلى جانب اللهجات المحلية يخلق فجوة في الفهم.
- غياب التشكيل: كثير من النصوص تُكتب دون حركات، مما يسبب غموضًا في المعنى.
- مرونة التراكيب النحوية: يصعب الاعتماد على مؤشرات بسيطة مثل طول الجملة فقط.
هذه التحديات تجعل من الضروري تطوير أدوات متقدمة تأخذ في الاعتبار الخصائص الفريدة للغة العربية .
ثالثًا: مشروع BAREC وأهدافه
يهدف مشروع BAREC إلى إنشاء إطار معياري دقيق لتقييم قابلية قراءة النصوص العربية على مستوى الجملة، وليس النص الكامل فقط.
ومن أبرز أهدافه:
- بناء قاعدة بيانات كبيرة ومتنوعة للنصوص العربية
- توفير تصنيف دقيق متعدد المستويات
- دعم الباحثين والمعلمين بأدوات عملية
- تطوير نماذج ذكاء اصطناعي قادرة على التقييم الآلي
وقد استند المشروع إلى نظام طه/عربي21 الذي يقسم النصوص إلى 19 مستوى من القراءة، تبدأ من مرحلة رياض الأطفال وتنتهي بالمستوى الجامعي المتقدم .
العينة: نوعها وحجمها
تُعد مدونة BAREC من أكبر الموارد في هذا المجال، حيث تتميز بما يلي:
- تحتوي على أكثر من 69 ألف جملة
- تضم أكثر من مليون كلمة
- تغطي 19 مستوى من الصعوبة
- تشمل مجالات متنوعة مثل: العلوم و العلوم الإنسانية و العلوم الاجتماعية
- جُمعت من حوالي 1922 مصدرًا مختلفًا
- تم تصنيفها يدويًّا بالكامل بواسطة فريق متخصص
كما تم تحويل نسبة من النصوص (حوالي 25%) إلى صيغة رقمية يدويًا، مما يعكس الجهد الكبير المبذول في بناء هذه القاعدة .
نظام مستويات القراءة
يعتمد BAREC على نظام مكوّن من 19 مستوى، تمثل درجات متدرجة من السهولة إلى الصعوبة، وتُرمز بحروف الأبجدية العربية (من الألف إلى القاف).
ويمتاز هذا النظام بـ:
- دقة عالية في التدرج، خاصة في المراحل المبكرة
- إمكانية تحويله إلى مستويات أقل (مثل 7 أو 5 أو 3 مستويات) حسب الحاجة
- توافقه مع المراحل التعليمية المختلفة
ويهدف هذا التدرج إلى تمكين المتعلم من التقدم تدريجيًا بطريقة مدروسة.
معايير تقييم النصوص
تم تقييم الجمل في BAREC وفق ستة أبعاد رئيسية، منها:
- الإملاء والتهجئة
- عدد الكلمات
- البنية الصرفية
- التراكيب النحوية
- المفردات
- المحتوى والأفكار
ويُحدَّد مستوى الجملة بناءً على أصعب عنصر لغوي فيها، وليس المتوسط، مما يضمن دقة أعلى في التقييم .
نظام BAREC Demo (المنصة التطبيقية)
إلى جانب المدونة، تم تطوير منصة إلكترونية تُعرف باسم BAREC Demo، وهي أداة تفاعلية عبر الإنترنت تساعد المستخدمين على الاستفادة من البيانات.
مكونات النظام:
واجهة البحث تمكن المستخدم من:
- البحث داخل قاعدة البيانات
- استكشاف الجمل المصنفة
- اختيار نصوص مناسبة لمستوى معين
واجهة التحليل تتيح للمستخدم:
- إدخال نص عربي
- الحصول على تقييم فوري لمستوى كل جملة
- عرض النتائج بشكل بصري وجدولي
وهذا يساعد على تحديد الجمل الصعبة داخل النص بدقة .
الذكاء الاصطناعي في النظام
يعتمد النظام على نموذج لغوي متطور (AraBERT) تم تدريبه على بيانات BAREC.
خصائص النموذج:
- يستخدم تقنيات التعلم العميق
- يصنف الجمل إلى 19 مستوى
- يعتمد على مكتبة Transformers
أداء النموذج:
- دقة حوالي 55% في التصنيف الدقيق (19 مستوى)
- ترتفع الدقة عند تقليل عدد المستويات
- معظم الأخطاء تكون قريبة من المستوى الصحيح
كما أن نسبة الاتفاق مع التقييم البشري مرتفعة (حوالي 81%)، مما يدل على موثوقية النتائج .
تصميم النظام التقني
تم بناء النظام وفق بنية حديثة تعتمد على:
- فصل الواجهة الأمامية عن الخلفية
- استخدام قواعد بيانات قوية
- توفير واجهات برمجية (APIs)
كما تم تطوير آليات متقدمة لمعالجة اللغة العربية، مثل:
- إزالة التشكيل
- توحيد الحروف
- التعامل مع الاشتقاقات المختلفة
وهذا يضمن دقة البحث وسرعة الأداء .
استخدامات النظام

يمكن استخدام BAREC في عدة مجالات، منها:
في التعليم:
- اختيار نصوص مناسبة للطلاب
- تحسين المناهج التعليمية
- دعم تعلم القراءة
في البحث العلمي:
- تحليل صعوبة النصوص
- دراسة اللغة العربية
في صناعة المحتوى:
- كتابة نصوص ملائمة للجمهور
- تبسيط النصوص المعقدة
نتائج الدراسة
أظهرت نتائج التقييم أن النظام:
- يقدم أداءً جيدًا في تصنيف النصوص
- يحقق توافقًا عاليًا مع التقييم البشري
- يوفر نتائج دقيقة خاصة عند تقليل عدد المستويات
كما أن متوسط الخطأ منخفض، مما يدل على قرب التنبؤات من الواقع.

التحديات والقيود
رغم قوة المشروع، إلا أنه يواجه بعض التحديات، مثل:
- الطابع الذاتي للتقييم: قد يختلف المقيمون في تقدير الصعوبة
- عدم تمثيل جميع اللهجات العربية
- احتمال وجود تحيز في البيانات
- صعوبة تغطية جميع أنواع النصوص
كما أن النماذج الذكية ليست دائمًا قابلة للتفسير بشكل كامل.
الجوانب الأخلاقية

حرص المشروع على الالتزام بأخلاقيات البحث، من خلال:
- احترام حقوق النشر
- تعويض المساهمين في التصنيف
- الشفافية في البيانات
- التحذير من سوء استخدام النظام
وأكد الباحثون أن الهدف من النظام هو الدعم التعليمي وليس إصدار أحكام على الأفراد .
آفاق مستقبلية
يسعى المشروع إلى تطوير نفسه عبر:
- توسيع المدونة لتصل إلى 10 ملايين كلمة
- تحسين دقة النماذج
- دعم اللهجات العربية
- إضافة تحليلات لغوية أعمق
كما يهدف إلى دمج الأدوات في أنظمة تعليمية تساعد الكتّاب والمعلمين.
الإفادة التي يقدمها البحث للمعلم العربي في مجال تعليم مهارات القراءة والكتابة
يمثل مشروع BAREC نقلة نوعية في مجال معالجة اللغة العربية، إذ يوفر:
- قاعدة بيانات ضخمة ودقيقة
- نظامًا متدرجًا لتقييم النصوص
- أدوات ذكية لتحليل قابلية القراءة
وقد نجح في سد فجوة مهمة في هذا المجال، خاصة على مستوى الجملة، مما يجعله أداة قيمة في التعليم والبحث.
وبالرغم من التحديات، فإن إمكاناته المستقبلية كبيرة، ويُتوقع أن يسهم بشكل فعال في تطوير تعليم اللغة العربية وتعزيز استخدامها في البيئة الرقمية.
التوثيق
Elmadani, Khalid, Nizar Habash, and Hanada Taha, (2025). "A Large and Balanced Corpus for Fine-grained Arabic Readability Assessment." In Findings of the Association for Computational Linguistics: ACL 2025, Vienna, Austria.