مراهنة نماذج الذكاء الاصطناعي على كرة القدم: تقرير KellyBench

يكشف أداء مراهنة نماذج الذكاء الاصطناعي على كرة القدم عن فجوة هائلة بين الضجة الإعلامية المحيطة بالذكاء الاصطناعي والواقع الذي لا يمكن التنبؤ به. فبينما تتفوق الأنظمة التوليدية في كتابة البرمجيات، أظهرت دراسة جديدة أن حتى النماذج الرائدة والأكثر تطوراً تخسر الأموال بشكل منهجي عند إجبارها على التعامل مع المتغيرات الفوضوية طويلة الأمد في المراهنات الرياضية. بالنسبة للشركات التي تعتمد على إدارة المخاطر الآلية، تسلط هذه النتائج الضوء على قيود شديدة في قدرات الاستدلال الحالية للذكاء الاصطناعي.

اختبر تقرير KellyBench، الذي أصدرته هذا الأسبوع شركة General Reasoning الناشئة ومقرها لندن، ثمانية من أبرز أنظمة الذكاء الاصطناعي في محاكاة افتراضية لموسم الدوري الإنجليزي الممتاز 2023-2024. تم تزويد وكلاء الذكاء الاصطناعي ببيانات تاريخية مفصلة وإحصائيات للفرق، ثم طُلب منهم بناء نماذج تهدف إلى زيادة العوائد وإدارة المخاطر. ومع عملها دون اتصال بالإنترنت لجلب النتائج المباشرة، مُنح كل نظام ثلاث محاولات لتحقيق أرباح انطلاقاً من رصيد أساسي موحد يبلغ 100,000 جنيه إسترليني.

جاءت النتائج ضعيفة بشكل عام على كافة الأصعدة، حيث خلص معدو الدراسة إلى أن الأنظمة قدمت أداءً أقل بكثير من البشر بشكل منهجي. فقد خسر كل نموذج رائد تم تقييمه أموالاً على مدار الموسم، وتعرض العديد منها للإفلاس المالي التام.

تحليل الأداء: مراهنة نماذج الذكاء الاصطناعي على كرة القدم

توضح البيانات أدناه متوسط العائد على الاستثمار (ROI) والرصيد النهائي عبر ثلاث محاولات لكل نظام تم اختباره. ومن اللافت للنظر أن النماذج التابعة لشركة xAI وشركة Acree فشلت حتى في إكمال جميع محاولاتها بعد تعرضها للإفلاس.

نموذج الذكاء الاصطناعي	متوسط العائد	أفضل محاولة	أسوأ محاولة	متوسط الرصيد النهائي
نموذج Claude Opus 4.6 لشركة Anthropic	-11.0%	-0.2%	-18.8%	89,035 جنيهاً إسترلينياً
نموذج GPT-5.4 لشركة OpenAI	-13.6%	-4.1%	-31.6%	86,365 جنيهاً إسترلينياً
نموذج Gemini 3.1 Pro لشركة Google	-43.3%	+33.7%	-100.0%	56,715 جنيهاً إسترلينياً
نموذج Gemini Flash 3.1 LP لشركة Google	-58.4%	+24.7%	-100.0%	41,605 جنيهات إسترلينية
نموذج GLM-5 لشركة Z.AI	-58.8%	-14.3%	-100.0%	41,221 جنيهاً إسترلينياً
نموذج Kimi K2.5 لشركة Moonshot	-68.3%	-27.0%	-100.0%	7,420 جنيهاً إسترلينياً
نموذج Grok 4.20 لشركة xAI	-100.0%	-100.0%	-100.0%	0 جنيه إسترليني
نموذج Trinity لشركة Acree	-100.0%	-100.0%	-100.0%	0 جنيه إسترليني

برز نموذج Claude Opus 4.6 التابع لشركة Anthropic باعتباره الأكثر صموداً، حيث كاد أن يصل إلى نقطة التعادل في أفضل محاولاته مع خسارة طفيفة بلغت نسبتها 0.2%. في المقابل، كان نموذج Gemini 3.1 Pro التابع لشركة Google هو النظام الوحيد الذي حقق عائداً إيجابياً في محاولة واحدة، مسجلاً أرباحاً بنسبة 33.7% قبل أن يفلس تماماً في محاولة لاحقة.

وهم المعايير الثابتة في التقييم

يوفر الفشل الذريع لأنظمة مثل نموذج Grok 4.20 التابع لشركة xAI، والذي أفلس مرة واحدة وفشل في إكمال محاولتيه الأخريين، ثقلاً موازناً للحماس المتزايد في وادي السيليكون بشأن البرمجة الآلية. وأشار روس تايلور، الرئيس التنفيذي لشركة General Reasoning والباحث السابق في مجال الذكاء الاصطناعي لدى شركة Meta، إلى أن معايير الصناعة الحالية معيبة بشدة لأنها تعتمد على بيئات ثابتة للغاية.

ووفقاً لتايلور، فإن ساحات الاختبار الخاضعة للرقابة هذه لا تشبه الفوضى والتعقيد في العالم الحقيقي. ورغم أن هندسة البرمجيات تظل ذات قيمة اقتصادية، فإن عدم قدرة هذه النماذج على التكيف مع الأحداث الجديدة وبيانات اللاعبين المحدثة على مدى أفق زمني طويل يشير إلى أن الموظفين الإداريين في الصناعات الديناميكية مثل التمويل والتسويق قد لا يتم استبدالهم بالسرعة المتوقعة.

رأيي: لماذا تفضح مراهنة نماذج الذكاء الاصطناعي على كرة القدم عيوب التقييم

تُعد النتائج المستخلصة من تقرير KellyBench بمثابة جرس إنذار حاسم لقادة الشركات المتحمسين لتسليم عمليات صنع القرار المعقدة وطويلة الأمد إلى الذكاء الاصطناعي. إن حقيقة فشل مراهنة نماذج الذكاء الاصطناعي على كرة القدم عالمياً في إدارة المخاطر على مدار فترة محاكاة مدتها تسعة أشهر تثبت أن النماذج اللغوية الكبيرة (LLMs) الحالية تفتقر إلى الاستدلال التنبؤي الحقيقي. فهي استثنائية في التعرف على الأنماط داخل مجموعات البيانات الثابتة، لكنها تنهار بشكل أساسي عند إجبارها على التكيف ديناميكياً مع المتغيرات المتراكمة لعدم القدرة على التنبؤ البشري، والإصابات، والزخم المتغير للفرق.

ويوضح نموذج Gemini 3.1 Pro التابع لشركة Google هذا التقلب بشكل مثالي. إن قدرته على التأرجح من ربح بنسبة 33.7% إلى إفلاس بنسبة 100% تسلط الضوء على تضارب خطير سيكون كارثياً في الأسواق المالية الحقيقية. وفي الوقت نفسه، يشير الفشل التام لنموذج Grok 4.20 التابع لشركة xAI حتى في إنهاء المحاكاة إلى قيود شديدة في بنيته الأساسية عند تكليفه بتنفيذ منطقي مستدام ومتعدد الخطوات دون تدخل بشري.

في النهاية، يجب أن تجبر هذه الدراسة صناعة التكنولوجيا على إعادة التفكير في كيفية قياس قدرات الذكاء الاصطناعي. وإلى أن يتمكن المطورون من إنشاء معايير تحاكي بدقة الآفاق الفوضوية وطويلة الأمد للعالم الحقيقي، يجب على الشركات التعامل مع الذكاء الاصطناعي كمساعد قوي بدلاً من وكيل مستقل قادر على إدارة المخاطر المالية.