بحوث زاي العلمية

العودة الى بحوث زاي العلمية
إرشادات لتوصيف انقرائية النصوص العربية بدقة على مستوى الجملة
  • وصف عام للبحث
  • يهدف مشروع "بارق" إلى إنشاء مكنز شامل لتصنيف النصوص العربية بناءً على مستويات الانقرائية بدقة ووفق معايير دقيقة.

    ويهدف مشروع "بارق" كذلك إلى تحسين فهم النصوص المكتوبة باللغة العربية وتصنيفها وفق مستويات انقرائية محددة تخدم جمهورًا متنوعًا من المتعلمين، بدءًا من طلاب رياض الأطفال وصولًا إلى طلاب الدراسات العليا. يركز المشروع على تقديم معايير دقيقة لتوسيم النصوص، مما يسهل تقييم مدى سهولة القراءة وتعقيد النصوص.

    تظهر الحاجة إلى مقاييس الانقرائية بسبب نقص الموارد القياسية التي تساعد في تحسين تعلم اللغة العربية وتعزيز التحصيل الأكاديمي. يتمثل التحدي في التعامل مع السمات اللغوية الفريدة للعربية، مثل التشكيل والغنى المعجمي، مما يتطلب حلولًا مبتكرة لقياس مستويات الانقرائية بدقة.

  • الغرض من البحث
    • تطوير معايير شاملة للانقرائية: تشمل جميع المستويات من رياض الأطفال إلى الدراسات العليا، مع التركيز على دقة التقييم.
    • تجنب التحيز: ضمان تنوع النصوص من حيث الثقافات والموضوعات لتجنب الصور النمطية.
    • إثراء التوسيم: اختيار نصوص تحتوي على توسيمات سابقة لتعزيز التفاعل بين النصوص.
    • إتاحة النتائج للجمهور: توفير المكنز والمعايير بشكل مفتوح لدعم الأبحاث في اللغة العربية.
  • إجراءات تنفيذ الدراسة
  • تصميم مستويات الانقرائية:

    • استلهام نظام التصنيف المستخدم في مشروع "هنادا طه تامور 2017"، مع تطوير مستويات تمتد من المستوى "ألف1" إلى "صاد100".
    • المستويات الدنيا مخصصة للأطفال، بينما المستويات العليا تتناول النصوص الأدبية والدراسات الأكاديمية.

    اختيار النصوص وتصنيفها:

    • تم تجميع أكثر من 10,000 جملة من نصوص متنوعة تشمل أدب الأطفال، المناهج الدراسية، المقالات الإخبارية، والنصوص الأدبية الكلاسيكية.
    • تم توسيع نطاق النصوص لتشمل مواضيع ثقافية ودينية معاصرة.

    مراقبة الجودة والتدريب:

    • خضع الفريق المسؤول عن التوسيم لتدريب مكثف لضمان التوافق والجودة.
    • تم اعتماد جولات تجريبية لتحديد أي مشكلات أو فجوات في المعايير.
  • نتائج الدراسة
  • المخرجات الأولية:

    • تم إنشاء نسخة أولية للمكنز تحتوي على 274 وثيقة موزعة بين أربع مجموعات: الأطفال، الناشئة، النصوص العربية المعاصرة، والنصوص الكلاسيكية.
    • حقق المشروع توازنًا في عدد الكلمات والجمل بين المجموعات.

    تحليل الاتفاق بين الموسّمين:

    • أظهرت الدراسات التجريبية متوسط تطابق بنسبة 72% في الجولات الأولية، مع خطط لتحسين الدقة من خلال تعديل المعايير والتدريب المستمر.

    نتائج التقييم التلقائي:

    • تم استخدام نموذج "CamelBERT" المدرب مسبقًا لتقييم البيانات. أظهرت النتائج دقة أولية بلغت 58%، مع ارتفاع الدقة إلى 72% عند تطبيق قواعد إضافية.
  • الإفادة التي يقدمها البحث للمعلم العربي في مجال تعليم مهارات القراءة والكتابة
  • التوصيات المستقبلية

    • توسيع نطاق المكنز: إضافة المزيد من النصوص لزيادة حجم البيانات وتنوعها.
    • تحسين المعايير: تطوير أدوات تقييم أكثر دقة تعتمد على النتائج الحالية.
    • إجراء أبحاث مستقبلية: استكشاف تطبيقات المشروع في مجالات تعليم اللغة العربية وتصميم مناهج متقدمة.

    فلمشروع "بارق" أهمية بالغة في تطوير تصنيف النصوص العربية وفق مستويات الانقرائية، مع تسليطه الضوء على منهجية العمل والنتائج والتوصيات المستقبلية.

  • التوثيق
  • Habash, N., Taha, H., Elmadani, Khalid N., Zeino, Z., Shmeis, A. (2024). Guidelines for sentence-level, fine-grained Arabic readability annotation. Journal of Computational Linguistics & Arabic Language Processing (JCLALP) King Salman Arabic Language Academic NLP Conference proceedings.