تُقدِّم هذه الورقة البحثية "مجموعة المقروئية العربية المتوازنة للتقييم" (BAREC)، وهي مجموعة بيانات واسعة النطاق ومُفصَّلة بدقة لتقييم مقروئية اللغة العربية. تتكون بارق (BAREC) من 69,441 جملة، تمتد على أكثر من مليون كلمة، وقد تم انتقاؤها بعناية لتغطي 19 مستوى من مستويات المقروئية، تبدأ من مرحلة الروضة وصولًا إلى مستوى الاستيعاب في الدراسات العليا. تُوازن المجموعة بين تنوع الأنواع النصية، والشمول الموضوعي، والفئات المستهدفة من القراء، مما يُتيح موردًا شاملًا لتقييم تعقيد النص العربي. تمت الوسم اليدوي الكامل للمجموعة بواسطة فريق كبير من المعلِّقين. بلغ متوسط الاتفاق الثنائي بين المعلِّقين، والمُقاس بمؤشر كابا المربع المرجح، 81.8%، وهو ما يعكس درجة عالية من الاتفاق الجوهري. وإلى جانب تقديم المجموعة، يقوم الباحثون بقياس أداء التقييم الآلي للمقروئية عبر مستويات مختلفة من التدرج، وذلك بمقارنة مجموعة من التقنيات. تسلط نتائج الباحثين الضوء على التحديات والفرص في نمذجة المقروئية العربية، وتظهر أداءً تنافسيًّا عبر أساليب متنوعة. لدعم البحث والتعليم، تتوفر مجموعة (BAREC) مفتوحة الوصول، إلى جانب دليل وسم تفصيلي ونتائج القياسات المرجعية.
- وصف عام للبحث
-
- الغرض من البحث
-
في ما يلي عرض لصيغة مختصرة من دليل وسْم مجموعة بارق (BAREC):
مستويات المقروئية
يعتمد نظام مستويات المقروئية لدى في معايير هنادا طه تامير (2017) على ترتيب الحروف العربية وفق الأبجدية (أبجد) ليشمل 19 مستوى: 1-ألف، 2-باء، 3-جيم، ... حتى 19-قاف. يُولي هذا النظام اهتمامًا أكبر بالتفاصيل في المستويات الدنيا، حيث يكون التباين في المقروئية أكثر وضوحًا. يُوضح هرم بارق (BAREC) تدرّج هذه المستويات وارتباطها بمكوّنات الدليل، والصفوف الدراسية، وثلاث نسخ مُبسَّطة من المستويات تشمل 7 و5 و3 مستويات. وجميع أنواع المستويات الأربعة (19-7-5-3) متوافقة تمامًا بحيث يسهل الانتقال من المستويات الدقيقة إلى المستويات الأوسع. وجرى عرض نتائج هذه المستويات في القسم السادس.
مبادئ وسْم المقروئية
يركز الدليل على المقروئية والفهم، أي يُعنى بسهولة القراءة والفهم بالنسبة إلى القارئ المستقل. لا يعتمد التقييم على التحليل النحوي أو العمق البلاغي، بل على فهم المعاني الأساسية المباشرة. قد تحتوي النصوص الطويلة على جمل ذات مستويات مقروئية مختلفة، لكننا نركّز على تقييم مستوى الجملة بمعزل عن السياق وقصد المؤلف.
السمات النصّية
يُقيَّم المستوى من خلال ستة أبعاد رئيسية، يحدد كلٌّ منها ظواهر لغوية متعددة لا بد من توفرها لتصنيف الجملة في مستوى أعلى. يمنح المعلِّق كل جملة مستوى مقروئية بناءً على أصعب ظاهرة لغوية فيها.
- الإملاء: يؤثر طول الكلمة وعدد المقاطع فيها على درجة الصعوبة
- عدد الكلمات: يحدد عدد الكلمات الفريدة المستوى الأعلى للمستويات الأسهل
- الصرف: يتم التمييز بين الصيغ الصرفية البسيطة والمعقدة، بما في ذلك استخدام الزوائد الملتصقة والسمات التصريفية قليلة الشيوع مثل صيغة المثنى
- النحو (التركيب): تُحدَّد تراكيب جمل محددة وعلاقات نحوية معينة بوصفها محورية لمستويات بعينها
- المفردات (المعجم): يُعد تعقيد اختيار الكلمات عاملًا رئيسًا، إذ تظهر في المستويات الأعلى مفردات أكثر تخصصًا ومفردات من الأدب الكلاسيكي
- المحتوى (المضمون): تُؤخذ في الاعتبار في المستويات الأعلى المعرفة المسبقة المطلوبة ومستويات التجريد
يُوضّح هرم بارق (BAREC) أيَّ هذه الجوانب يُستخدم (بصورة عامّة) وأيَّ المستويات تشملها. فعلى سبيل المثال، لا تُستخدم معايير الحروف الهجائية إلا حتى المستوى السابع (حرف الزاي)، بينما يُستخدم النحو حتى المستوى الخامس عشر (حرف السين)، ولا يُستخدم عدد الكلمات بعد المستوى الحادي عشر (حرف الكاف).
المشكلات والصعوبات
يُشجَّع المعلِّقون على الإبلاغ عن أي إشكاليات، مثل الأخطاء الإملائية، أو اللغة العامية، أو المواضيع الإشكالية. ويُدوَّن وجود صعوبة عندما يتعذر إتمام عملية الوسم بسبب تعارض التعليمات الإرشادية.
قبل الشروع في عملية التوسيم، تلقى جميع المعلِّقين تدريبًا مكثفًا، شمل ثلاث مراحل تجريبية. أتاحت هذه المراحل فرصًا لمناقشة التعليمات الإرشادية بتفصيل، مما ساعد على تحديد أي إشكاليات ومعالجتها. كما تم تضمين 19 مجموعة وسْم مشتركة (تضمّ كل منها 100 جملة) بشكل غير معلن لضمان الجودة وقياس الاتفاق بين المعلِّقين. وأخيرًا، أجرى الباحثون مراجعة ثانية شاملة لبيانات المجموعة، بحيث خضعت كل جملة للتدقيق مرتين في المرحلة الأولى (10,658 جملة) قبل المتابعة لإكمال المجموعة الكاملة البالغة 69,441 جملة (مليون كلمة). إجمالًا، قام المعلِّقون بتوسيم 92,600 جملة، منها 25% لم تدرج في المجموعة النهائية: 3.3% اعتُبرت إشكالية (أخطاء مطبعية وموضوعات مسيئة)، و11.5% كانت جزءًا من المرحلة الثانية من التوسيم في المرحلة الأولى، و10.3% كانت ضمن جهود قياس الاتفاق بين المعلِّقين، باستثناء عمليات توحيدها.
- العينة: نوعها وحجمها
-
عند اختيار مكونات المجموعة اللغوية، استهدف الباحثون تغطية نطاق تعليمي واسع، بالإضافة إلى مجالات وموضوعات متنوعة. جمعوا المجموعة من 1922 وثيقة، قمنا بتصنيفها يدويًّا إلى ثلاثة مجالات: الآداب والعلوم الإنسانية، والعلوم الاجتماعية، والعلوم والتقنية والهندسة والرياضيات، وإلى ثلاث فئات من القراء: تأسيسي، ومتقدم، ومتخصص. ويتوافق التوزيع عبر مستويات القراءة مع التركيز التعليمي للمجموعة، إذ توجد نسبة أعلى من المعتاد في المستويات التأسيسية. وتعكس الاختلافات بين المجالات تباينًا في توافر النصوص واهتمامات القراء (نسبة أكبر للآداب والعلوم الإنسانية، ونسبة أقل للعلوم والتقنية والهندسة والرياضيات). تستخدم المجموعة وثائق من 30 مصدرًا مختلفًا. جميع النصوص المختارة إما أنها خارجة عن نطاق حقوق النشر، أو ضمن حدود الاستخدام العادل، أو تم الحصول عليها بموجب اتفاق مع الناشرين. تأثر قرار اختيار بعض هذه المصادر بوجود وسوم أخرى لها بالفعل. نحو 25% من جميع الجمل جاءت من مصادر جديدة كلّيًّا، تمّت كتابتها يدويًّا لتصبح قابلة للاستخدام الرقمي.
- نتائج الدراسة
-
الاتفاق بين المعلِّقين (IAA)
يعرض الباحثون نتائج 16 دراسة حول الاتفاق بين المعلِّقين، باستثناء المراحل التجريبية الثلاث وأولى دراستين للاتفاق، والتي تداخلت مع تدريب المعلِّقين.
الاتفاق الثنائي
بلغ متوسط التطابق التام (المطابقة الحرفية) بين أي معلِّقين اثنين على مستويات BAREC التسعة عشر 61.1% فقط، مما يعكس مدى تعقيد المهمة. وعند السماح بفارق يصل إلى مستوى واحد (تطابق غير دقيق)، يرتفع متوسط التطابق إلى 74.4%. ويبلغ متوسط الفارق بين المستويات في الاتفاق الثنائي 0.94 من المستوى. كما يبلغ متوسط مؤشر كابا المربع المرجح (Quadratic Weighted Kappa) 81.8%، وهو ما يشير إلى "اتفاق جوهري"، مما يؤكد أن معظم حالات عدم الاتفاق هي فروق بسيطة.
اتفاق التوحيد
بعد كل دراسة من دراسات الاتفاق بين المعلِّقين، ناقش المعلِّقون المستوى الموحد لكل جملة واتفقوا عليه. وبلغ متوسط التطابق التام بين المعلِّقين والمستوى الموحد 71.7%(Acc19) ، مما يعكس صعوبة المهمة. ومع ذلك، فإن الارتفاع في متوسط التطابق مع السماح بفارق مستوى واحد (±1 Acc19) ليصل إلى 82.3%، وانخفاض متوسط الفارق (0.65)، وقوة مؤشر كابا المربع المرجح (88.1%)، تشير جميعها إلى أن معظم حالات عدم التطابق بين المعلِّقين والتسميات الموحدة كانت فروقًا بسيطة.
نتائج المرحلة الأولى
قام الباحثون بتقييم مجموعات مختلفة من النماذج المُدرَّبة مسبقًا ومتغيرات الإدخال باستخدام دالة الخسارة عبر الإنتروبيا (Cross-Entropy Loss). بناءً على جميع المقاييس، ولاحظوا أن نموذجي AraBERTv02 وAraBERTv2 يحققان أداءً أعلى بشكل عام عبر متغيرات الإدخال المتعددة. ومن بين متغيرات الإدخال، يُنتِج تمثيلا "الكلمة" (Word) و"D3Tok" نتائج أفضل مقارنة بتمثيلي "المعجم" (Lex) و"D3Lex". وبشكل خاص، يُحقق نموذج AraBERTv2 مع متغير الإدخال D3Tok أفضل الدرجات في جميع المقاييس. ومن الجدير بالذكر أن AraBERTv2 هو النموذج الوحيد الذي استفاد من مدخلي D3Tok وD3Lex مقارنة بمدخل "الكلمة"، حيث أظهر تحسّنًا في جميع المقاييس. ورأى الباحثون أن ذلك يحدث لأن AraBERTv2 هو النموذج الوحيد في هذه المجموعة الذي تم تدريبه مسبقًا على بيانات مجزأة (مفصولة صرفيًّا)، مما يجعله أكثر توافقًا مع الإدخال المجزأ صرفيًّا. تشير هذه النتائج إلى أن كلًّا من اختيار متغير الإدخال والنموذج المُدرَّب مسبقًا يؤثران تأثيرًا كبيرًا في الأداء. بناءً على جميع المقاييس، نختار نموذج AraBERTv2 مع متغير الإدخال D3Tok باعتباره المجموعة الأفضل أداءً. وفي المرحلة الثانية، قام الباحثون بتقييم هذا النموذج باستخدام دوال خسارة مختلفة.
نتائج المرحلة الثانية
استخدم الباحثون النموذج الأفضل من المرحلة الأولى لتقييم دوال خسارة مختلفة. من بين جميع دوال الخسارة التي تم تقييمها، حققت دالة الإنتروبيا المتقاطعة (CE) أعلى دقة تطابق تام (Acc19) بلغت 56.6%، مما يشير إلى أنها الأداء الأفضل عندما يتعلق الأمر بالتنبؤ بمستوى المقروئية بدقة تامة. وعلى النقيض من ذلك، أظهرت دوال الخسارة الأخرى أداءً أقوى في المقاييس التي تراعي الطبيعة الترتيبية (التدرجية) لمستويات المقروئية. ومن اللافت أن دالة الانحدار (Regression) حققت أعلى دقة عند السماح بفارق مستوى واحد (±1) بنسبة 73.1%، وأفضل مؤشر كابا المربع المرجح (QWK) بنسبة 84.0%، مما يشير إلى أنها تتفوق في التنبؤ بمستويات قريبة من المستوى الصحيح (الذهبي)، على الرغم من كونها الأسوأ من حيث الدقة التامة (المطابقة الحرفية). تدعم هذه النتائج فكرة أن دوال الخسارة المصممة للتسميات الترتيبية أو المستمرة - مثل EMD و OLL والانحدار - تكون أكثر فاعلية في مقاييس التقييم التي تكافئ القرب من التسمية الصحيحة، حتى لو كان أداؤها أقل شأنًا في الدقة الصارمة.
- الإفادة التي يقدمها البحث للمعلم العربي في مجال تعليم مهارات القراءة والكتابة
-
قدّمت هذه الورقة البحثية "مجموعة المقروئية العربية المتوازنة للتقييم" بارق (BAREC)، وهي مجموعة بيانات واسعة النطاق مزوّدة بوسوم دقيقة لتقييم مقروئية النصوص العربية عبر 19 مستوى. وتضم المجموعة أكثر من 69 ألف جملة ومليون كلمة، مما يجعلها، فيما نعلم، أكبر مجموعة لغوية عربية لتقييم المقروئية، حيث تغطي أنواعًا نصّية وموضوعات وفئات قرّاء متنوّعة. كما يضمن الاتفاق المرتفع بين المعلّقين موثوقية الوسوم. ومن خلال قياس أداء مجموعة متنوعة من تقنيات تقييم المقروئية، سلّط الباحثون الضوء على التحديات والفرص في نمذجة المقروئية العربية، وأظهروا أداءً واعدًا عبر مختلف الأساليب.
بالنظر إلى المستقبل، يخطط الباحثون لتوسيع المجموعة اللغوية، وزيادة حجمها وتنوعها لتشمل أنواعًا نصية وموضوعات إضافية. كما يهدفون إلى إضافة وسوم متعلقة بتدرج المفردات ومدونات شجرية نحوية لدراسة الأنواع الأقل استكشافًا من حيث التركيب. وسيتضمن العمل المستقبلي تحليل الاختلافات في المقروئية عبر الأنواع النصية والموضوعات. بالإضافة إلى ذلك، سيتم دمج الأدوات التي طوّرناها في نظام يساعد كتّاب قصص الأطفال على استهداف مستويات قراءة محددة. وسيوفر الباحثون مجموعة بيانات بارق (BAREC)، ودليل الوسم الخاص بها، ونتائج القياسات المرجعية للجميع، وذلك لدعم الأبحاث والتطبيقات التعليمية المستقبلية في مجال تقييم المقروئية العربية.
- التوثيق
-
Elmadani, Khalid N., Adel Mahmoud Wizani, Hanada Taha Thomure and Nizar Habash (2026). A Large and Balanced Multi-Domain Arabic Corpus Annotated for Morphology, Syntax, and Readability. In Proceedings of the International Conference on Language Resources and Evaluation (LREC 2026), Palma, Mallorca, Spain.