نموذج Evo 2 للذكاء الاصطناعي: تحليل الجينوم والحمض النووي

أُطلق نموذج Evo 2 AI genome model رسمياً كنظام مفتوح المصدر بالكامل تم تدريبه على تريليونات من القواعد النيتروجينية لفك تشفير تعقيدات الحياة البيولوجية. تم تطوير هذه الشبكة العصبية الضخمة لتحليل الجينوم عبر مجالات الحياة الثلاثة، وهي البكتيريا والعتائق وحقيقيات النوى، حيث يمكنها تحديد الجينات والتسلسلات التنظيمية ومواقع الوصل التي يصعب على الباحثين البشريين اكتشافها عادةً. بالنسبة لعلماء الأحياء الحاسوبية وعلماء الوراثة، يوفر هذا الإصدار أداة تنبؤ قوية لا تتطلب أي ضبط دقيق خاص بمهمة معينة، مما يسمح بالتحليل الفوري للهياكل الجينومية المعقدة.

في حين كان النظام الأصلي فعالاً للغاية في تحليل الجينوم البكتيري، والذي يتم تنظيمه وفقاً لمبادئ واضحة نسبياً، فإن الكائنات الحية ذات الخلايا المعقدة تمثل تحدياً أكبر بكثير. تتميز جينومات حقيقيات النوى بأقسام تشفير تقطعها إنترونات، وتسلسلات تنظيمية ضعيفة التحديد متناثرة عبر مئات الآلاف من أزواج القواعد، وكميات هائلة من الحمض النووي غير النشط. يتغلب نموذج Evo 2 على هذه العقبات من خلال استخدام الاحتمالات الإحصائية للتعرف على الأنماط الدقيقة التي يستحيل التقاطها بالعين المجردة، مما ينجح في تطوير تمثيلات داخلية للميزات الرئيسية مثل حلزونات ألفا وصفائح بيتا والعناصر الجينية المتنقلة.

تدريب معمارية StripedHyena 2

يعتمد النظام الجديد على شبكة عصبية تلافيفية تُعرف باسم معمارية StripedHyena 2. نفذ الباحثون عملية التدريب على مرحلتين متميزتين لزيادة الفهم السياقي للنموذج. ركزت المرحلة الأولية على تعليم النظام تحديد ميزات الجينوم المهمة عن طريق تغذيته بتسلسلات في أجزاء يبلغ طولها حوالي 8,000 قاعدة. بعد ذلك، قامت المرحلة الثانية بتغذية التسلسلات بمقدار مليون قاعدة في المرة الواحدة، مما أتاح للذكاء الاصطناعي الفرصة لتحديد ميزات الجينوم الشاملة واسعة النطاق.

قام الفريق بتدريب نسختين من النظام باستخدام مجموعة OpenGenome2، والتي تحتوي على 8.8 تريليون قاعدة. تتميز النسخة الأصغر بعدد 7 مليارات معلمة تم ضبطها باستخدام 2.4 تريليون قاعدة، بينما تتميز النسخة الكاملة بعدد 40 مليار معلمة تم تدريبها على مجموعة البيانات بأكملها. وبشكل حاسم، استبعد الباحثون عمداً الفيروسات التي تهاجم حقيقيات النوى من بيانات التدريب، مشيرين إلى مخاوف من إمكانية إساءة استخدام النظام لخلق تهديدات بيولوجية للبشر. تم إتاحة المشروع بأكمله، بما في ذلك معلمات النموذج وكود التدريب وكود الاستدلال ومجموعة البيانات، للجمهور بشكل مفتوح بالكامل.

الأسئلة الشائعة

ما هي مجموعات البيانات التي تم استخدامها لتدريب الذكاء الاصطناعي الجديد؟

تم تدريب النظام على مجموعة OpenGenome2، والتي تحتوي على 8.8 تريليون قاعدة من البكتيريا والعتائق وحقيقيات النوى والعاثيات.

لماذا تم استبعاد فيروسات معينة من بيانات التدريب؟

تم استبعاد الفيروسات التي تهاجم حقيقيات النوى عمداً لمنع إساءة استخدام النظام في هندسة تهديدات بيولوجية للبشر.

هل يتطلب النموذج ضبطاً دقيقاً لمهام محددة؟

لا، يقوم النموذج بإجراء تنبؤات مباشرة دون تدريب مسبق. من خلال تعلم احتمالية التسلسلات عبر مجموعات البيانات التطورية الواسعة، فإنه يلتقط الأنماط المحفوظة دون أي إشراف خاص بمهمة معينة.

رأيي التقني

يمثل إطلاق نموذج Evo 2 AI genome model نقطة تحول حاسمة في علم الأحياء الحاسوبي. من خلال الاعتماد على التنبؤ المباشر وتخطي الضبط الدقيق الخاص بالمهام، اتخذ المطورون خياراً استراتيجياً رائعاً. لو قاموا بتدريب النموذج بشكل صريح على شكل مواقع الوصل المعروفة، فمن المحتمل أن يعاني من التحيز البشري، مما يحد من قدرته على العثور على هياكل جينومية غير عادية أو جديدة تماماً. علاوة على ذلك، فإن جعل نموذج ضخم يحتوي على 40 مليار معلمة مفتوح المصدر إلى جانب مجموعة OpenGenome2 يضفي طابعاً ديمقراطياً على الوصول إلى أدوات المعلوماتية الحيوية عالية المستوى، وهو ما سيسرع بلا شك من اكتشاف هياكل بروتينية وعلاجات جينية جديدة عبر مجتمع البحث العالمي.