يُقدِّم هذا البحث "المجموعة المتوازنة لتقييم مقروئية النص العربي" (BAREC)، وهي مجموعة بيانات واسعة النطاق ودقيقة التصنيف مصمَّمة خصيصاً لتقييم مقروئية النصوص العربية. تتكون BAREC من 69,441 جملة، يزيد عدد كلماتها على مليون كلمة، وقد جُمعت بعناية لتغطي 19 مستوى من مستويات المقروئية، تبدأ من مرحلة الروضة وصولًا إلى مستوى الاستيعاب الجامعي (الدراسات العليا). وتتميز المجموعة بتوازنها من حيث تنوع الأنواع الأدبية، والتغطية الموضوعية، والفئات العمرية المستهدفة، مما يجعلها مصدرًا شاملًا لتقييم مدى تعقيد النص العربي. وقد تم ترميز المجموعة بالكامل يدويًّا على يد فريق كبير من المرمّزين. بلغ متوسط الاتفاق بين المرمّزين (المُقاس باستخدام معامل كابا الموزون تربيعيًّا) 81.8%، وهو ما يعكس درجة عالية من الاتفاق الجوهري. وإلى جانب تقديم المجموعة اللغوية، يقوم الباحثون في هذا البحث بقياس أداء التقييم التلقائي للمقروئية على مختلف مستويات التصنيف، ومقارنة مجموعة من التقنيات المختلفة. وتُبرز نتائج البحث التحديات والفرص المتاحة في مجال نمذجة المقروئية باللغة العربية، وتُظهر أداءً تنافسيًّا لمختلف الأساليب المُجرَّبة. دعمًا للبحث العلمي والتعليم، يتيح الباحثون مجموعة BAREC مفتوحة للجميع، إلى جانب دليل الترميز المفصّل.
يتناول المقال عرض مشروع متقدم في مجال معالجة اللغة العربية يُعرف باسم BAREC، وهو اختصار لـمدونة متوازنة لتقييم قابلية قراءة النصوص العربية. يهدف هذا المشروع إلى معالجة واحدة من أبرز القضايا في التعليم واللسانيات، وهي تحديد مدى صعوبة النصوص العربية، أي مدى سهولة قراءتها وفهمها من قبل القارئ.
تُعد قابلية القراءة عنصرًا حاسمًا في العملية التعليمية، إذ تؤثر مباشرة في فهم الطالب للنص، وسرعة قراءته، وقدرته على الاستيعاب والتفاعل. وقد بيّنت الدراسات أن النصوص التي تتجاوز مستوى القارئ قد تؤدي إلى فقدان الاهتمام وضعف التعلم.