لقد كانت 36 ساعة حافلة بالأحداث على تويتر، حيث قام إيلون ماسك بتغيير القواعد وقال إنه تم تنفيذ قيود معينة لمنع المستويات القصوى من data scraping أوتجريف البيانات والتلاعب بالنظام من قبل عدة مئات من المنظمات، وهو ما يدفعنا للتساؤل عما هو تجريف البيانات؟ وما هي السلبيات التي جعلت ماسك يتخذ إجراءً صارمًا إلى حد ما لتقييد عدد التغريدات التي يراها الأشخاص في اليوم؟ نفسر ما هو وتأثيره
ما هو تجريف البيانات؟
تجريف البيانات، المعروف أيضًا باسم تجريف الويب، هو العملية الآلية لاستخراج كميات كبيرة من البيانات من مواقع الويب أو المصادر عبر الإنترنت، يتضمن استخدام أدوات البرامج أو تقنيات البرمجة لجمع المعلومات من صفحات الويب وتحويلها إلى تنسيق منظم، مثل جدول بيانات أو قاعدة بيانات.
هل كل data scraping سيئة؟
لا، تجريف البيانات له آثار إيجابية وسلبية، وعلى الجانب الإيجابي، يمكن استخدامه لأغراض مشروعة مختلفة، يمكن للباحثين والمحللين كشط البيانات لجمع معلومات لأبحاث السوق أو تحليل الاتجاهات أو مراقبة أسعار المنافسين ومعلومات المنتج، ويمكن للشركات كشط البيانات لجمع ملاحظات العملاء أو المراجعات أو لإنشاء عملاء متوقعين لفرق المبيعات الخاصة بهم، ويمكن أيضًا استخدام تجريف البيانات في البحث الأكاديمي أو صحافة البيانات أو لإنشاء تطبيقات وخدمات مبتكرة.
ما هي عيوب تجريف البيانات؟
يمكن أن يكون تجريف البيانات ضارًا أيضًا عند استخدامه لأغراض غير أخلاقية أو غير قانونية، على سبيل المثال، لدى العديد من مواقع الويب شروط خدمة أو اتفاقيات استخدام تحظر كشط بياناتها دون إذن، عندما ينتهك الكشط هذه الشروط، يصبح الوصول غير المصرح به إلى بيانات موقع الويب ويمكن أن يؤدي إلى عواقب قانونية.
هناك دائمًا تهديد بانتهاك حقوق الطبع والنشر حيث قد يتضمن تجريف البيانات نسخ ونسخ مواد محمية بحقوق الطبع والنشر دون إذن مناسب، يمكن أن يؤدي ذلك إلى مشكلات قانونية إذا كانت البيانات المسروقة محمية بموجب قانون حقوق النشر.
وعلاوة على ذلك، فإن كشط البيانات الشخصية، مثل عناوين البريد الإلكتروني أو أرقام الهواتف أو المعلومات الحساسة، دون موافقة الأفراد يمكن أن يؤدي إلى انتهاكات الخصوصية، قد يؤدي إلى إساءة استخدام البيانات الشخصية أو سرقة الهوية أو الإعلانات الموجهة.
الشيء الوحيد الذى جعل Musk يغير القواعد هو أن تجريف البيانات يؤثر على أداء موقع الويب، يمكن أن يؤدي التجريف المكثف والمتكرر إلى تحميل عبء كبير على خوادم موقع الويب المستهدف، مما يؤدي إلى انخفاض الأداء أو حتى تعطل الموقع، يؤثر هذا على تجربة المستخدم للزائرين الشرعيين ويمكن اعتباره شكلاً من أشكال هجوم رفض الخدمة.
السبب الآخر للخلاف هو التلاعب بالبيانات وإساءة استخدامها، يمكن التلاعب بالبيانات المقتبسة أو تغييرها أو تحريفها، مما يؤدي إلى معلومات مضللة أو أنشطة احتيالية.
لماذا يشعر Musk بالإحباط من تجريف البيانات؟
أعرب ماسك عن قلقه يوم الجمعة من قيام العديد من المنظمات بكشط بيانات تويتر على نطاق واسع، والتي ادعى أنها أثرت سلبًا على تجربة المستخدم.
وادعى أن الشركات التي تستخدم كميات كبيرة من البيانات لتدريب نماذج لغة الذكاء الاصطناعي هي المسئولة عن ذلك، لقد كان بحثًا مستترًا في Microsoft وOpenAI وGoogle وغيرها من الشركات التي تستخدم نماذج لغة كبيرة لغرض الذكاء الاصطناعي التوليدي.