دراسة: قدرات الذكاء الاصطناعي مبالغ فيها بسبب اختبارات مزيفة
دراسة: قدرات الذكاء الاصطناعي قد تكون مبالغًا فيها بسبب اختبارات الأداء المزيفة
قد تكون النماذج أغبى مما تعتقد، بل وربما "تغش" في الاختبارات.
هل تتذكر كل تلك التقارير التي تحدثت عن نجاح نماذج الذكاء الاصطناعي في اجتياز امتحانات المحاماة أو تحقيق ذكاء بمستوى الدكتوراه؟ يبدو أن الوقت قد حان لسحب تلك الشهادات. فقد كشفت دراسة جديدة أجراها باحثون في معهد أكسفورد للإنترنت أن معظم أدوات قياس الأداء (Benchmarks) الشائعة المستخدمة لاختبار قدرات الذكاء الاصطناعي غالبًا ما تكون غير موثوقة ومضللة.
قام الباحثون بمراجعة 445 اختبار قياس أداء مختلفًا، تُستخدم في الصناعة والدوائر الأكاديمية لاختبار كل شيء بدءًا من قدرات الاستدلال المنطقي إلى الأداء في مهام البرمجة. وبعد مراجعة كل نهج قياس، وجد الخبراء مؤشرات على أن النتائج التي تنتجها هذه الاختبارات قد لا تكون دقيقة كما يتم تقديمها، ويرجع ذلك جزئيًا إلى التعريفات الغامضة لما يحاول الاختبار قياسه، بالإضافة إلى عدم الكشف عن الأساليب الإحصائية التي من شأنها أن تسمح بمقارنة النماذج المختلفة بسهولة.
مصطلح تقني: اختبارات قياس الأداء (Benchmarks): هي مجموعة من الاختبارات الموحدة التي تُستخدم لتقييم وقياس أداء نظام أو نموذج معين (مثل الذكاء الاصطناعي) في مهام محددة ومقارنته بالأنظمة الأخرى.
مشكلة التلوث في البيانات
إحدى المشكلات الكبرى التي وجدها الباحثون هي أن "العديد من اختبارات القياس ليست مقاييس صالحة لأهدافها المقصودة". أي أنه بينما قد يدعي اختبار ما أنه يقيس مهارة معينة، فإنه قد يُعرف تلك المهارة بطريقة لا تعكس حقًا قدرة النموذج.
على سبيل
المثال، يشير الباحثون إلى اختبار "Grade School Math 8K" (GSM8K)، الذي يقيس أداء النموذج في حل مسائل الرياضيات الكلامية للمرحلة الابتدائية، والمصمم لدفع النموذج إلى "استدلال رياضي متعدد الخطوات". لكن الباحثين يجادلون بأن الاختبار لا يخبرك بالضرورة ما إذا كان النموذج يمارس الاستدلال المنطقي فعلاً.
ويوضح آدم مهدي، كبير الباحثين في معهد أكسفورد للإنترنت وأحد المؤلفين الرئيسيين للدراسة، قائلاً: "عندما تسأل طفلاً في الصف الأول عن ناتج جمع اثنين وخمسة ويجيب بسبعة، نعم، هذه هي الإجابة الصحيحة. لكن هل يمكنك أن تستنتج من هذا أن طفلاً في الصف الخامس قد أتقن الاستدلال الرياضي؟ ربما، لكن أعتقد أن الإجابة على الأرجح هي لا".
أشار الباحثون في الدراسة إلى أن درجات اختبار GSM8K قد ارتفعت بمرور الوقت، وهو ما قد يشير إلى أن النماذج أصبحت أفضل في هذا النوع من الاستدلال. لكنه قد يشير أيضًا إلى ما يُعرف بـ "التلوث" (Contamination)، والذي يحدث عندما تتسرب أسئلة الاختبار إلى مجموعة بيانات تدريب النموذج، أو عندما يبدأ النموذج في "حفظ" الإجابات بدلاً من التوصل إلى الحل عن طريق الاستدلال. وعندما اختبر الباحثون نفس الأداء على مجموعة جديدة من أسئلة القياس، لاحظوا أن النماذج شهدت "انخفاضًا كبيرًا في الأداء".
على أقل تقدير، يُعد هذا البحث تذكيرًا جيدًا بأن مقاييس الأداء هذه، على الرغم من أنها غالبًا ما تكون حسنة النية وتهدف إلى تقديم تحليل دقيق للنموذج، يمكن أن تتحول إلى مجرد دعاية تسويقية للشركات.