كشف الهوية بالذكاء الاصطناعي: دراسة Anthropic تفضح الحسابات المجهولة

أصبحت تهديدات كشف الهوية بالذكاء الاصطناعي حقيقة ملموسة، حيث أظهرت أبحاث جديدة من شركة Anthropic وجامعة ETH Zurich أن النماذج اللغوية الكبيرة (LLMs) قادرة على كشف هويات مستخدمي الإنترنت المجهولين على نطاق واسع. نُشرت الدراسة كـ ورقة بحثية أولية على منصة arXiv تحت عنوان "كشف الهوية عبر الإنترنت على نطاق واسع باستخدام النماذج اللغوية الكبيرة"، وتكشف كيف يمكن لوكلاء الذكاء الاصطناعي ربط الحسابات المستعارة بهويات حقيقية تلقائياً عبر تحليل الأدلة الرقمية المتناثرة.

بالنسبة للمدافعين عن الخصوصية، والصحفيين، والمبلغين عن المخالفات، والمستخدمين العاديين، يمثل هذا التطور تحولاً جذرياً في الأمن الرقمي. تعني هذه النتائج أن الاعتماد على "الغموض العملي" - وهو افتراض أن التحقيق اليدوي مكلف وممل للغاية لكشف المستخدمين العاديين - لم يعد استراتيجية قابلة للتطبيق لحماية النشاط الحساس عبر الإنترنت.

تقليدياً، كانت عملية كشف الهوية تتطلب من المحللين البشريين البحث بدقة في المنشورات، وأساليب الكتابة، والتلميحات الديموغرافية. أثبت فريق البحث المشترك أن أنظمة الذكاء الاصطناعي الحديثة يمكنها أتمتة عملية الاستخراج والمطابقة. للتحقق من صحة هذه المنهجية، اختبر الباحثون الذكاء الاصطناعي مقابل ثلاث مجموعات بيانات متميزة بهويات حقيقية معروفة:

مطابقة مستخدمي منصة Hacker News المجهولين بملفاتهم الشخصية الحقيقية على شبكة LinkedIn، حتى بعد إزالة المعرفات الواضحة مثل الأسماء وأسماء المستخدمين.
ربط حسابات منصة Reddit المستعارة والمنفصلة عبر مجتمعات فرعية مختلفة تماماً.
تحليل سجل منشورات مستخدم واحد تم تقسيمه إلى ملفين شخصيين منفصلين لتحديد ما إذا كانا يعودان لنفس الشخص بنجاح.

تفوقت الأنظمة القائمة على النماذج اللغوية الكبيرة بشكل كبير على الأساليب التقليدية، والتي حققت نجاحاً يقترب من الصفر في نفس التجارب. وصلت نماذج الذكاء الاصطناعي إلى معدل استدعاء (Recall) بنسبة 68% مع دقة (Precision) تبلغ حوالي 90%، مما يحافظ على معدل خطأ منخفض بشكل ملحوظ أثناء تحديد الأهداف بشكل صحيح. والأكثر إثارة للقلق هو تقدير الباحثين بأن التكلفة التشغيلية لهذه العملية الآلية تتراوح بين 1 و 4 دولارات لكل ملف شخصي، مما يقلل من العائق المالي للمراقبة الجماعية أو التحقيقات المستهدفة.

على الرغم من أن الباحثين حجبوا عمداً تفاصيل فنية محددة لمنع إساءة الاستخدام الفورية، إلا أن التداعيات تظل عميقة. تهدد أتمتة استخراج الهوية الخصوصية الأساسية للإنترنت. قد تتطلب الدفاعات المستقبلية أدوات إخفاء هوية مدعومة بالذكاء الاصطناعي أو ضمانات أكثر صرامة على مستوى المنصات لمكافحة نماذج الاكتشاف عالية القدرة هذه.

الأسئلة الشائعة

كيف تعمل عملية كشف الهوية بالذكاء الاصطناعي؟
يقوم نظام الذكاء الاصطناعي باستخراج إشارات الهوية مثل الاهتمامات الشخصية، وأساليب الكتابة، والأدلة الديموغرافية من النصوص العامة، ثم يبحث في الويب لتقييم ومطابقة هذه الأدلة مع أفراد معروفين.

هل أداة كشف الهوية هذه متاحة للجمهور؟
لا. أُجري البحث في بيئة خاضعة للرقابة باستخدام بيانات عامة، وقد تعمد المؤلفون حجب بعض التفاصيل الفنية من ورقتهم البحثية للتخفيف من مخاطر الاستخدام الضار.

رأيي التقني

إن النقطة البيانية الأكثر إثارة للقلق في دراسة شركة Anthropic وجامعة ETH Zurich ليست معدل الدقة البالغ بنسبة 90%، بل التكلفة المقدرة التي تتراوح بين 1 و 4 دولارات لكل ملف شخصي. عندما يتحول كشف الهوية من تحقيق بشري مكثف يستغرق أياماً إلى استدعاء برمجي (API Call) منخفض التكلفة، فإن مفهوم "الغموض العملي" يصبح في حكم الميت رسمياً. هذا التحول الاقتصادي يعني أن الكشف الجماعي عن الهويات لم يعد مقتصراً على الجهات الحكومية؛ بل أصبح الآن مجدياً مالياً للشركات الخاصة، ووسطاء البيانات، والجهات الخبيثة. للمضي قدماً، من المرجح أن نشهد سباق تسلح بين وكلاء كشف الهوية المدعومين بالذكاء الاصطناعي وأدوات تنظيف الخصوصية المصممة لتعقيم البصمات الرقمية قبل نشرها.