أصوات من الرباط
أطلق فريق بحثي مغربي مبادرة علمية رائدة تهدف إلى إدماج الدارجة المغربية في تقنيات الذكاء الاصطناعي، من خلال دراسة حملت عنوان “GemMaroc: Unlocking Darija Proficiency in LLMs with Minimal Data”. وتمثل هذه الدراسة قفزة نوعية في مجال معالجة اللغة الطبيعية، حيث تسعى إلى تمكين النماذج اللغوية الكبرى (LLMs) من فهم وإنتاج اللغة العامية المغربية بكفاءة، رغم محدودية الموارد والبيانات المتاحة.جاء هذا المشروع ثمرة تعاون بين خبراء مغاربة في مجالي الذكاء الاصطناعي وعلوم اللغة، في خطوة تهدف إلى كسر المركزية اللغوية العالمية في التكنولوجيا الرقمية، وتحقيق ما يسميه الباحثون “العدالة اللغوية”، عبر تقريب الذكاء الاصطناعي من الواقع اليومي للمستخدم المغربي.وأكدت نتائج الدراسة أن تدريب نموذج لغوي حتى على بيانات محدودة يمكن أن يُنتج أداءً متقدماً في التعامل مع الدارجة، إذ أظهرت التجارب ارتفاع نسبة الإجابات الصحيحة من نحو 33% إلى أكثر من 47% بعد يومين فقط من التدريب، دون أن يتأثر أداء النموذج في اللغة الإنجليزية. وقد برز نموذج GemMaroc-27B بتفوقه الملحوظ على نماذج لغوية عالمية أخرى في اختبارات فهم اللغة المغربية العامية.وركّزت الدراسة على أهمية “جودة وتنوع البيانات” أكثر من كميتها، حيث حرص الفريق البحثي على استخدام مقاطع حوارية وسيناريوهات واقعية تحاكي مواقف الحياة اليومية في المغرب، كالتعليمات الشفوية والأسئلة العامة، مما سمح للنموذج باكتساب حسّ لغوي مرتبط بالسياق المغربي.وساهم اعتماد ما يُعرف بـ “الدارجة المهيكلة” في تقليل التشويش اللغوي الناتج عن اختلاف اللهجات داخل المغرب، الأمر الذي عزز من قدرة النموذج على تقديم إجابات دقيقة ومتسقة، ويفتح المجال لتطوير تطبيقات تعليمية وإدارية فاعلة باللغة المحلية.ولم تغفل الدراسة التحديات البنيوية المرتبطة بطبيعة الدارجة، وعلى رأسها غياب معيار موحد لكتابتها. ولتجاوز هذا العائق، تبنى الباحثون نهجًا هجينًا يدمج بين الحروف العربية.

التعليقات مغلقة.