جيميني 3.1 برو يحقق قفزة بنسبة 77% في القدرات الاستدلالية

أطلقت شركة غوغل نموذج جيميني 3.1 برو، وهو تحديث ذكاء كبير لنموذجها الرائد يعيد تشكيل الطريقة التي يتعامل بها النظام مع الاستدلال المعقد وحل المشاكل متعددة الخطوات. يتم طرح النموذج اليوم عبر تطبيق جيميني و NotebookLM ومنصات المطورين و GitHub Copilot، ويمثل هذا الإصدار أول استخدام لشركة غوغل لنظام التسمية بزيادة 0.1إشارة مقصودة إلى أن هذا تحسين ذكاء مركز وليس توسعاً واسع النطاق للميزات.

يستهدف التحديث فجوة حرجة في قدرات الذكاء الاصطناعي: الحالات التي لا تكفي فيها الإجابات البسيطة. يتفوق نموذج جيميني 3.1 برو في تجميع مجموعات البيانات الضخمة في عروض موحدة، وإنتاج رسوميات SVG متحركة مباشرة من موجهات نصية، والاستدلال من خلال المشاكل التقنية والعلمية المعقدة التي تتطلب عمقاً حقيقياً. بالنسبة للمطورين والمؤسسات، يترجم هذا إلى دورات تكرار أسرع، وكلاء ذكاء اصطناعي أكثر موثوقية، وتنسيق أدوات أذكى عبر سير العمل الحقيقي.

نقلة الاستدلال

مقياس الأداء الرئيسي مثير للإعجاب: يحقق نموذج جيميني 3.1 برو درجة 77.1% في معيار ARC-AGI-2، وهو معيار مصمم لاختبار الاستدلال المجرد على أنماط منطقية جديدة تماماً. يمثل هذا أكثر من مضاعفة درجة نموذج جيميني 3 برو السابقةقفزة ذات مغزى تشير إلى تحسينات معمارية حقيقية وليس مجرد ضبط تدريجي. بعيداً عن الاستدلال المجرد، يحقق النموذج درجة 94.3% في معيار GPQA Diamond (المعرفة العلمية)، و 80.6% في معيار SWE-Bench Verified (ترميز وكلاء الذكاء الاصطناعي)، و 85.9% في معيار BrowseComp (بحث وكلاء الذكاء الاصطناعي).

تكتسب هذه المكاسب أهميتها لأنها تعكس تحسينات القدرة الحقيقية. محرك الاستدلال المتقدم الذي تم تقديمه في نموذج جيميني 3 Deep Think الأسبوع الماضي يصل الآن إلى جمهور أوسع بكثير من خلال نموذج 3.1 برو، مما يمكّن المطورين من بناء وكلاء ذكاء اصطناعي مستقلة يمكنها التعامل مع التخطيط المنظم والنمذجة المالية وأتمتة جداول البيانات والمهام المؤسسية عالية السياق مع تحسينات موثوقية قابلة للقياس. تسمح نافذة السياق بحجم 1 مليون رمز للنموذج بفهم مستودعات الأكواد الكاملة والمستندات الطويلة ومجموعات البيانات المعقدة متعددة المصادر في وقت واحد.

إنتاج رسوميات SVG المتحركة وتجربة المطور

إحدى أكثر القدرات الجديدة عملية هي إنتاج رسوميات SVG المتحركة مباشرة من موجهات نصية. على عكس الفيديو التقليدي أو رسوميات البكسل، يتم بناء مخرجات SVG بكود نقي، مما يعني أنها تتسع بلا حدود دون فقدان الجودة وتستهلك جزءاً صغيراً من حجم الملف. يمكن للمطور الآن أن يصف تصوراً تفاعلياًعلى سبيل المثال، لوحة تحكم الفضاء الجوي في الوقت الفعلي أو مدينة محاكاة بها توليد التضاريس وتدفق حركة المروروينتج نموذج جيميني 3.1 برو الكود الكامل والوظيفي. يلغي هذا النفقات العامة للترميز اليدوي التي تتبع عادة نماذج التصميم، مما يسرع المسار من المفهوم إلى الإنتاج.

يوضح النموذج أيضاً اتباعاً محسناً للتعليمات واستخدام أدوات محسّن، مما يتيح تنفيذ مهام متعددة الخطوات في وقت واحد. في اختبار GitHub Copilot المبكر، يتفوق نموذج جيميني 3.1 برو في حلقات التحرير والاختبار بدقة أداة عالية، مما يحقق نجاحاً قوياً في الحل مع عدد أقل من استدعاءات الأدوات لكل معيارمقياس كفاءة حرج للمطورين الذين يعتمدون على الترميز بمساعدة الذكاء الاصطناعي.

التوفر واستراتيجية الطرح

يتم طرح نموذج جيميني 3.1 برو عبر منصات متعددة مع وصول متدرج. يمكن للمطورين الوصول إلى النموذج فوراً عبر واجهة برمجة تطبيقات جيميني في Google AI Studio و Gemini CLI و Antigravity و Vertex AI و Gemini Enterprise و Android Studio. يمكن لمستخدمي GitHub Copilotبما في ذلك مشتركو Copilot Pro و Pro+ و Business و Enterpriseاختيار نموذج جيميني 3.1 برو من منتقي النموذج في Visual Studio Code و Visual Studio و github.com و GitHub Mobile، على الرغم من أن الطرح سيكون تدريجياً. يجب على مسؤولي Copilot Enterprise و Business تفعيل سياسة جيميني 3.1 برو في إعدادات Copilot لفتح الوصول لفريقهم.

يُتوقع أن يكون التوفر العام للجماهير الأوسع قريباً، مما يشير إلى ثقة غوغل في استقرار النموذج وأدائه عبر حالات الاستخدام المتنوعة.

كفاءة الرموز ومستويات التفكير

تحسين حرج لكن غالباً ما يتم تجاهله هو كفاءة الرموز. يقدم نموذج جيميني 3.1 برو مستوى تفكير MEDIUM جديد معامل يسمح للمطورين بتحسين المقايضة بين التكلفة والسرعة والأداء. هذا مفيد بشكل خاص للمؤسسات التي تشغل أحمال عمل استدلال عالية الحجم حيث يجب موازنة عمق الاستدلال مقابل نفقات التشغيل. يعني التفكير المحسّن للنموذج عبر حالات الاستخدام المختلفة أن المطورين يمكنهم تحقيق نتائج أفضل دون زيادة استهلاك الرموز بشكل متناسبفائدة مباشرة في التكلفة والكمون.

يدعم النموذج مدخلات متعددة الأنماط بما في ذلك النص والصور والفيديو والصوت وملفات PDF ومستودعات الأكواد، مع تاريخ قطع المعرفة في يناير 2025. يتيح هذا النطاق الواسع من الإدخال متعدد الأنماط حالات استخدام تتراوح من تحليل المستندات وفهم الفيديو إلى مراجعة الأكواد وحل المشاكل التقنية في واجهة موحدة واحدة.

التطبيقات الحقيقية

يمتد التأثير العملي عبر مجالات متعددة. يمكن للفرق المالية استخدام نموذج جيميني 3.1 برو لنمذجة السيناريوهات المعقدة وأتمتة سير عمل جداول البيانات بالاستدلال الحقيقي بدلاً من الأتمتة القائمة على القوالب. تستفيد فرق الهندسة البرمجية من ترميز وكلاء الذكاء الاصطناعي الذي يفهم السياق عبر مستودعات كاملة ويمكنه اقتراح عمليات إعادة هيكلة متعددة الملفات بثقة عالية. يمكن لمنشئي المحتوى والمصممين إنتاج تجارب ويب تفاعلية بوصفها بلغة طبيعية، مع إنتاج النموذج لأكواد جاهزة للإنتاج. يمكن للباحثين تجميع النتائج عبر مئات الأوراق ومجموعات البيانات، مع تحديد النموذج للأنماط والتناقضات التي ستفتقدها المراجعة اليدوية.

الموضع التنافسي

تضع درجة جيميني 3.1 برو بنسبة 77.1% في معيار ARC-AGI-2 النموذج كمنافس جاد في مساحة الاستدلال الحدودية، حيث هيمنت نماذج GPT من OpenAI و Claude من Anthropic على المعايير الأخيرة. يشير التركيز على موثوقية وكلاء الذكاء الاصطناعي وتنسيق الأدوات إلى أن غوغل تراهن على أن القيمة الحقيقية تكمن ليس فقط في درجات الاستدلال الخام، بل في القدرة على تنفيذ سير عمل معقد متعدد الخطوات بشكل مستقلقدرة تهم أكثر للعملاء المؤسسيين من المستخدمين الأفراد.

الأسئلة الشائعة

س: كيف يختلف نموذج جيميني 3.1 برو عن نموذج جيميني 3 برو؟
ج: يضاعف نموذج جيميني 3.1 برو أداء الاستدلال (77.1% مقابل ~35% في معيار ARC-AGI-2)، ويقدم قدرات وكلاء ذكاء اصطناعي محسّنة للترميز وسير العمل المنظم، ويضيف مستوى تفكير MEDIUM لتحسين التكلفة، ويحسن كفاءة الرموز عبر حالات الاستخدام.

س: هل يمكنني استخدام نموذج جيميني 3.1 برو في GitHub Copilot الآن؟
ج: نعم، يتم طرحه في معاينة عامة لمستخدمي Copilot Pro و Pro+ و Business و Enterprise عبر Visual Studio Code و Visual Studio و github.com و GitHub Mobile. الطرح تدريجي، لذا قد يختلف التوفر.

س: ما حجم نافذة السياق، ولماذا يهم؟
ج: يدعم نموذج جيميني 3.1 برو نافذة سياق بحجم 1 مليون رمز، مما يسمح له بمعالجة مستودعات الأكواد الكاملة والمستندات الطويلة ومجموعات البيانات متعددة المصادر في طلب واحدمما يتيح تحليلاً أعمق واستدلالاً أكثر استنارة من النماذج ذات النوافذ الأصغر.

رأيي

يمثل نموذج جيميني 3.1 برو نقطة انعطاف ذات مغزى في استراتيجية غوغل للذكاء الاصطناعي. بدلاً من السعي وراء درجات المعايير الخام، تحسّن غوغل سير عمل المطورين والمؤسسات الحقيقيةموثوقية وكلاء الذكاء الاصطناعي وتنسيق الأدوات وكفاءة التكلفة وعمق الاستدلال متعدد الأنماط. درجة ARC-AGI-2 بنسبة 77% مثيرة للإعجاب، لكن القيمة الحقيقية تكمن في قدرة النموذج على تنفيذ مهام معقدة ومستقلة مع أخطاء أقل واستهلاك رموز أقل. بالنسبة للمطورين الذين يبنون تطبيقات مدعومة بالذكاء الاصطناعي، هذا هو أكثر تحديث استدلال عملي أطلقته غوغل. بالنسبة للمؤسسات التي تقيّم البنية التحتية للذكاء الاصطناعي، يجعل تركيز نموذج جيميني 3.1 برو على سير العمل المنظم واستخدام الأدوات خياراً مقنعاً بديلاً للمنافسين. توقع اعتماداً سريعاً في GitHub Copilot و Vertex AI، مع أن يصبح النموذج الخيار الافتراضي لتطوير وكلاء الذكاء الاصطناعي في غضون أسابيع.