ترجمة البحث العلمي

العودة الى ترجمة البحث العلمي
نظام بارق (BAREC): موارد وأدوات لتقييم قابلية قراءة اللغة العربية على مستوى الجملة: عرض منهجي
  • وصف عام للبحث
  • في عصر تتسارع فيه وتيرة إنتاج المحتوى الرقمي، وتتنوع فيه مصادر المعرفة، تبرز الحاجة الملحة إلى أدوات دقيقة تساعد في قياس مدى ملاءمة النصوص لمستويات القراء المختلفة. وهذا ما تقدمه منصة BAREC، التي تمثل نقلة نوعية في مجال تقييم مقروئية النصوص العربية. فبدلاً من الاكتفاء بتقييم النص كله، تتيح هذه المنصة تحليلًا دقيقًا على مستوى الجملة الواحدة، مما يمنح المعلمين، وصانعي المحتوى، ومتعلمي اللغة العربية، والباحثين أداة تفاعلية قوية لاختيار النصوص وتكييفها بدقة متناهية.

    يتناول المقال عرض منصة بارق (BAREC) الإلكترونية، وهي عبارة عن مدوّنة (قاعدة بيانات) متوازنة لتقييم قابلية قراءة النصوص العربية. وتهدف إلى تقييم قابلية قراءة النصوص العربية على مستوى الجملة. وتُعدُّ قابلية القراءة عنصرًا أساسيًا في فهم النصوص، إذ تعكس مدى سهولة قراءة النص واستيعابه وفقًا لعوامل لغوية مثل المفردات والتركيب النحوي وتعقيد الجمل. ويكتسب هذا الموضوع أهمية خاصة في المجالات التعليمية، حيث يساعد اختيار النصوص المناسبة لمستوى المتعلم في تحسين الفهم والتعلم.

  • الغرض من البحث
  • تواجه اللغة العربية تحديات فريدة عند محاولة تقييم قابلية القراءة، ومن أبرز هذه التحديات:

    • الغنى الصرفي: فالكلمة الواحدة قد تأخذ أشكالًا متعددة، ممّا يصعّب تحليل المفردات.
    • التنوع اللغوي (الازدواجية): وجود الفصحى إلى جانب اللهجات المحلية يخلق فجوة في الفهم لدى بعض القراء.
    • غياب التشكيل في كثير من النصوص: ما يؤدي إلى غموض في المعنى.
    • مرونة التراكيب النحوية: مما يجعل من الصعب الاعتماد على مؤشرات بسيطة مثل طول الجملة.

    هذه التحديات جعلت من الضروري تطوير أدوات أكثر دقة ومرونة لتقييم النصوص العربية.

    هذه التحديات هي ما دفع فريق الباحثين في جامعة نيويورك أبوظبي، بالتعاون مع مركز زاي للغة العربية في جامعة زايد، إلى تطوير مشروع بارق (BAREC).

    مشروع بارق (BAREC) وأهدافه

    جاء مشروع بارق: وهو مدوّنة (قاعدة بيانات) متوازنة لتقييم قابلية قراءة النصوص العربية BAREC (Balanced Arabic Readability Evaluation Corpus) ليعالج هذه التحديات من خلال:

    • إنشاء قاعدة بيانات ضخمة تضم حوالي 69 ألف جملة عربية.
    • تصنيف هذه الجمل وفق 19 مستوى من قابلية القراءة، تبدأ من مستوى رياض الأطفال وصولًا إلى الدراسات العليا.
    • الاعتماد على إطار تربوي معروف (هنادا طه/ عربي 21) لتحديد المستويات، الذي طورته الدكتورة هنادا طه تامور. يمتد هذا الإطار من المستوى الأول (وهو مستوى الروضة) حتى المستوى التاسع عشر (وهو مستوى الدراسات العليا). وتُصوَّر هذه المستويات على شكل هرم، حيث تتدرج الصعوبة تصاعدياً. ويمكن تجميع هذه المستويات في فئات أوسع (7 مستويات، أو 5، أو 3) بحسب حاجة المستخدم.

    ويهدف المشروع إلى توفير أدوات تساعد المعلمين والباحثين وصناع المحتوى على اختيار النصوص المناسبة لمستوى القراء بدقة أكبر.

    مكونات نظام بارق

    يتكون النظام من جزأين رئيسيين:

    • واجهة البحث: تتيح هذه الواجهة للمستخدمين:

      • البحث داخل قاعدة البيانات باستخدام كلمات أو أسماء مؤلفين أو عناوين كتب.
      • الاطلاع على الجمل المصنفة مسبقًا مع مستوى صعوبتها.
      • استكشاف النصوص وفق مجالات مختلفة مثل العلوم أو الأدب.

      وتساعد هذه الأداة المعلمين في اختيار نصوص مناسبة للطلاب، كما تفيد الباحثين في تحليل اللغة.

    • واجهة التحليل: تمكن هذه الواجهة المستخدم من:

      • إدخال نص عربي (قصير أو طويل).
      • الحصول على تحليل فوري لمستوى قابلية القراءة لكل جملة.
      • عرض النتائج في شكل: مستوى عام للنص و تحليل تفصيلي لكل جملة و شريط بصري يوضح درجة الصعوبة.

      وهذا يسمح بتحديد الأجزاء الصعبة في النص بدقة، مما يسهل تبسيطها أو تعديلها.

    قاعدة البيانات

    تُعدُّ قاعدة بيانات بارق (BAREC) من أهم إنجازات المشروع، حيث:

    • تحتوي على أكثر من مليون كلمة.
    • تشمل مجالات متعددة مثل العلوم والعلوم الإنسانية.
    • تغطي مستويات تعليمية مختلفة.
    • جُمعت من قرابة 1922 مصدرًا.
    • تم تصنيفها يدويًّا لضمان الجودة.

    كما تم تحويل بعض النصوص غير الرقمية إلى صيغة مكتوبة يدويًا، مما يعكس الجهد الكبير في إعداد البيانات.

    كيف يعمل نظام التحليل التلقائي؟

    يعتمد نظام التحليل على نموذج ذكاء اصطناعي متطور يُسمى AraBERTv02، وهو نموذج لغوي كبير تم تدريبه خصيصًا على اللغة العربية. تمت إعادة تدريب هذا النموذج (أي ضبطه بدقة) باستخدام مجموعة BAREC، بحيث يتعلم كيفية الربط بين خصائص الجملة ومستوى المقروئية المناسب لها.

    تم تدريب النموذج على معالج رسومي قوي (NVIDIA V100 GPU) لمدة ست دورات تدريبية، مع معدل تعلم محدد وحجم دفعة 64 جملة. والنتيجة هي نموذج يستطيع، بعد الانتهاء من التدريب، أن يتنبأ بمستوى مقروئية أي جملة عربية جديدة يدخلها المستخدم.

    وقد أظهرت النتائج أن النموذج يحقق دقة تقارب 56% في التصنيف الدقيق.، كما أن الدقة ترتفع عند تقليل عدد المستويات. وغالبًا ما تكون التنبؤات قريبة من المستوى الصحيح.

    تصميم النظام

    عند تصميم المنصة، واجه المطورون تحديات تقنية يجب حلها لضمان تجربة مستخدم سلسة:

    البحث النصي الفعّال في العربية: نظراً لتعقيدات الرسم العربي (مثل وجود الحركات، والمدة، وألفات الوصل والقطع، والألف المقصورة، والتاء المربوطة...)، تم تطبيق عمليات تطبيع إملائي على النصوص أثناء الفهرسة وأثناء البحث. مثلاً، البحث عن كلمة "تفسير" سيعيد أيضًا نتائج مثل "تفسيرها"، "تفسيرات"، و"يفسر". كما تم استخدام المطابقة الجزئية للتعامل مع الصرف العربي الغني.

    بنية معيارية قابلة للتطوير: فُصلت واجهة المستخدم عن منطق البيانات وعن خدمات التحليل، مما يسهل الصيانة والتطوير المستقبلي.

    واجهة ويب متجاوبة: صُممت الواجهة لتكون سهلة الاستخدام على مختلف الأجهزة، وتدعم اللغتين العربية والإنجليزية.

    تواصل عبر واجهات برمجة تطبيقات (APIs): يتواصل الواجهة الأمامية مع الخلفية عبر واجهات API قياسية، مما يتيح إمكانية توسيع النظام ليشمل تطبيقات أخرى (مثل تطبيقات الهواتف) مستقبلاً.

    تم بناء النظام وفق هيكل تقني حديث يتميز بـ:

    • فصل الواجهة عن الخادم.
    • استخدام قواعد بيانات قوية لتخزين النصوص.
    • دعم البحث المتقدم في اللغة العربية عبر: إزالة التشكيل و توحيد أشكال الحروف و التعامل مع الاشتقاقات المختلفة للكلمات.

    كما يعتمد على واجهات برمجية (APIs) تسهّل تطوير تطبيقات مستقبلية.

  • العينة: نوعها وحجمها
  • واجهة التحليل

    هذه هي الواجهة الأكثر ابتكارًا في المنصة. تظهر شاشة تحتوي على مساحة نصية يمكن للمستخدم كتابة أو لصق النص العربي فيها. بعد الضغط على زر "تحليل"، يقوم النظام بما يلي:

    • إرسال النص إلى خادم التحليل
    • تقسيم النص إلى جمل
    • تطبيق نموذج الذكاء الاصطناعي على كل جملة على حدة
    • إرجاع النتائج وعرضها بطريقة مرئية وجدولية

    شريط المقروئية الملون: يظهر في الجزء العلوي شريط ألوان يمثل المستويات الـ19، حيث لكل مستوى لون مختلف. هذا الشريط يساعد المستخدم على رؤية توزيع مستويات الجمل في النص دفعة واحدة.

    الجدول التفصيلي: يعرض الجدول كل جملة مع مستوى المقروئية الخاص بها، بلون مطابق للون شريط المستويات. كما يظهر في رأس الجدول "مستوى النص الكلي" وهو أعلى مستوى ظهر بين جميع جمل النص.

    مثال توضيحي: في المقال، تم تحليل مقتطف من كتاب الأطفال "النهر الذهبي". تبين أن النص يحتوي على سبع جمل: ثلاث منها في المستوى 12 (حوالي الصف الخامس)، واثنتان في المستوى 11 (حوالي الصف الرابع)، والباقي في مستويات أدنى. ومستوى النص الكلي هو 12.

    أمثلة الاستخدام

    يوضح المقال كيفية استخدام النظام من خلال سيناريوهات واقعية:

    ففي البحث يمكن للمعلم البحث عن جمل مناسبة لمستوى معين، كما يمكن للباحث تحليل أسلوب كاتب معين. وفي التحليل يمكن إدخال نص تعليمي، وتحديد الجمل الصعبة، وتعديل النص ليصبح أكثر ملاءمة للطلاب.

    تقييم الأداء

    تم تقييم النظام باستخدام عدة معايير، منها الدقة، وقرب التوقع من الإجابة الصحيحة، بالإضافة إلى مقياس الاتفاق الإحصائي (QWK).

    وقد أظهرت النتائج أن النظام يقدم أداءً جيّدًا في تصنيف النصوص، ويحقق توافقًا عاليًا مع التقييم البشري، بالإضافة إلى أنه مناسب للاستخدام في التطبيقات التعليمية.

  • نتائج الدراسة
  • أظهرت الدراسة النتائج التالية:

    أهمية النظام

    يسهم بارق (BAREC) في تحسين جودة التعليم باللغة العربية، ودعم تعلم اللغة للناطقين بها وغير الناطقين بها، بالإضافة إلى مساعدة المؤلفين على كتابة نصوص مناسبة للجمهور، فضلًا عن تطوير أبحاث معالجة اللغة العربية.

    من المستفيدون من هذه المنصة؟

    تستهدف المنصة أربع فئات رئيسية:

    المعلمون: يمكنهم استخدام المنصة لاختيار نصوص مناسبة لمستوى طلابهم، أو لتصميم أنشطة قرائية متدرجة الصعوبة. كما يمكنهم تحليل النصوص التي يعدونها بأنفسهم للتأكد من ملاءمتها.

    متعلمو اللغة العربية: يمكن للمتعلمين اختبار قدراتهم باختيار نصوص في مستويات متزايدة الصعوبة، أو الحصول على تغذية راجعة دقيقة حول الجمل التي يجدون صعوبة في فهمها.

    صانعو المحتوى: يمكن للكتاب التربويين والمحررين التأكد من أن نصوصهم تتناسب مع الفئة العمرية المستهدفة، وتعديل الجمل الصعبة بناءً على التحليل المفصل.

    الباحثون في مجال معالجة اللغة العربية: توفر المنصة للباحثين مجموعة بيانات ضخمة وموثقة، ونموذجًا مفتوح المصدر يمكن الاستفادة منه في أبحاثهم وتطبيقاتهم.

    التحديات والقيود

    بالرغم من قوة هذا النظام، فإنه يواجه بعض القيود:

    • الذاتية في التقييم البشري: إذ قد يختلف المقيّمون في تقدير مستوى النص.
    • عدم شمول جميع اللهجات: فقد اتّجه التركيز الأكبر إلى العربية الفصحى.
    • احتمال وجود تحيز في البيانات.
    • صعوبة تمثيل كل أنواع النصوص.

    الجوانب الأخلاقية

    أكد المشروع احترام حقوق الملكية الفكرية، واستخدام النظام لأغراض تعليمية فحسب.

    ويقر فريق البحث بأن تقييم المقروئية يحمل قدرًا من الذاتية، حتى مع وجود إرشادات صارمة وتدريب مكثف للمعلّقين. فقد يختلف معلقان في تقدير مستوى جملة معينة، وهذا ينعكس بطبيعة الحال على أداء النموذج.

    كما أن المجموعة اللغوية، بالرغم من تنوعها، لا يمكنها أن تغطي كل أنماط اللغة العربية في كل المناطق والمواضيع. لذلك، قد يكون أداء النموذج أقل دقة مع نصوص من أنواع غير ممثلة بشكل كافٍ في مجموعة التدريب.

    من الناحية الأخلاقية، يلتزم الفريق بالشفافية والمسؤولية. جميع البيانات جُمعت بطرق قانونية مع احترام حقوق الملكية الفكرية. وقد تم تعويض المعلّقين بشكل عادل. كما يشدد الفريق على أن هذه الأداة صُممت لتكون داعمة ومساعدة، وليست أداة حكم أو تقييم نهائي للأفراد. ويُحذر من استخدامها لأغراض غير أخلاقية مثل التنميط المتحيز بناءً على أسلوب الكتابة.

    آفاق مستقبلية

    يسعى المشروع إلى تطوير نفسه عبر توسيع قاعدة البيانات إلى 10 ملايين كلمة، بالإضافة إلى تحسين دقة النماذج، ودعم اللهجات العربية، فضلًا عن إجراء دراسات على المستخدمين لتحسين التجربة.

  • الإفادة التي يقدمها البحث للمعلم العربي في مجال تعليم مهارات القراءة والكتابة
  • تمثل منصة بارق (BAREC) خطوة متقدمة في مجال معالجة اللغة العربية، حيث يقدم حلًّا عمليًّا ودقيقًا لتقييم قابلية قراءة النصوص. ويجمع بين الجهد البشري والتقنيات الحديثة لتوفير أداة قوية تخدم التعليم والبحث العلمي. وبالرغم من التحديات، فإن آفاق تطويرها واعدة، مما يجعلها مشروعًا مهمًّا في دعم اللغة العربية في العصر الرقمي.

    فهذه المنصة تقدم إضافة نوعية لأدوات تقييم المقروئية العربية. فبدلاً من المقاييس التقليدية التي تعتمد على معادلات بسيطة (مثل طول الجملة أو عدد المقاطع)، تقدم هذه المنصة نموذجًا ذكيًّا يتعلم الخصائص اللغوية الحقيقية للنصوص. والأهم من ذلك، أن التحليل على مستوى الجملة يمنح المستخدم دقة وتفصيلًا غير مسبوقين.

    ينظر فريق البحث إلى المستقبل بتفاؤل، ويسعى إلى:

    • توسيع المجموعة اللغوية إلى 10 ملايين كلمة، تغطي نطاقًا أوسع من الأنواع الأدبية والموضوعات وحتى اللهجات.
    • تحسين دقة النموذج باستخدام تقنيات تعلم آلي أكثر تقدماً، ودمج خصائص لغوية إضافية.
    • إجراء دراسات مستفيضة مع المستخدمين لفهم احتياجاتهم بشكل أعمق وتطوير الميزات التي تخدمهم.
    • تنقيح إرشادات التعليق بناءً على الملاحظات والتجارب المستمرة.

    وفي النهاية، تظل المنصة متاحة للجميع عبر الرابط: https://barec.camel-lab.com، وهي دعوة مفتوحة لكل مهتم باللغة العربية لاستكشاف إمكانياتها والإسهام في تطويرها.

  • التوثيق
  • Altarbouch, Kinda, Khalid N. Elmadani, Ossama Obeid, Hanada Taha-Thomure, and Nizar Habash, (2025). BAREC Demo: Resources and Tools for Sentence-level Arabic Readability Assessment. In Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing: System Demonstrations (EMNLP Demonstrations).