معركة مستمرة لمنع روبوتات الذكاء الاصطناعي من الاستيلاء على الإنترنت
تحتاج أنظمة الذكاء الاصطناعي إلى التدريب على النص، مما دفع مُنشئيها إلى جمع الكلمات من جميع أنحاء الويب، حيث اتخذ عدد من الشركات خطوات كبيرة لمنع برامج استخراج النصوص من محاولة أخذ نصوصهم.
وهذه هي الجبهة الأخيرة في معركة مستمرة ومتصاعدة على ما يبدو بين مواقع الويب التي تسمح للناس بقراءة النص وشركات الذكاء الاصطناعي التي ترغب في استخدامه لبناء أدواتها الجديدة.
وأدى صعود الذكاء الاصطناعي إلى ظهور عدد من الشركات التي تتطلع إلى تدريب تقنيات الذكاء الاصطناعي الجديدة والأكثر ذكاءً. لكن أنظمة نموذج اللغة الكبيرة التي تدعم العديد منها - مثل ChatGPT - تتطلب كميات هائلة من النص للتدريب.
وقد دفع هذا بعض الشركات إلى استخراج النص من الويب حتى يمكن إدخاله في تلك الأنظمة لهذا التدريب. وقد أدى هذا بدوره إلى إحباط أصحاب مواقع الويب القائمة على النصوص، الذين يزعمون ليس فقط أن الشركات ليس لديها إذن لاستخدام بياناتهم، بل وأيضًا أنها تبطئ أداء الإنترنت.
على سبيل المثال، اقترح إيلون ماسك مرارًا وتكرارًا أن موقع X، المعروف سابقًا باسم Twitter، يحصل على قدر هائل من حركة المرور من أنظمة الكشط هذه.
ويعد X أحد العديد من المواقع التي أدخلت قواعد صارمة "لتحديد المعدل"، والتي تحاول منع الروبوتات من إعادة تحميل موقعها كثيرًا - على الرغم من أن البعض اقترح أن هذا تم استخدامه أيضًا لإخفاء المشاكل المتعلقة بموقع X الذي يبدو أنه يعاني من مشاكل.
في الأسبوع الماضي، قدم موقع Reddit مجموعة من التغييرات التي حاولت منع الروبوتات من كشط موقعه على الويب. وقال إنه سيستخدم أيضًا تحديد المعدل، بالإضافة إلى حظر الروبوتات غير المعروفة وإعطاء تعليمات لمثل هذه الأنظمة بالابتعاد عن موقعه على الويب.
وأشار إلى أن هذه القواعد قد تحد من الأنظمة الآلية الأخرى المهمة للشفافية، مثل Internet Archive، الذي يحفظ صفحات الويب للوصول إليها لاحقًا. لكنه أصر على أن الأدوات المهمة للباحثين ستظل لديها إمكانية الوصول إلى Reddit.
ويجب على أي شخص يصل إلى محتوى Reddit الالتزام بسياساتنا، بما في ذلك تلك الموضوعة لحماية مستخدمي Reddit. "نحن انتقائيون بشأن من نعمل معه ونثق في الوصول على نطاق واسع إلى محتوى Reddit"، قالت عندما قدمت تلك القواعد الجديدة.
صفقات شركات الذكاء الاصطناعي
ودخلت بعض الشركات في صفقات لمنح شركات الذكاء الاصطناعي حق الوصول إلى بياناتها أو بيانات مستخدميها. وقعت كل من OpenAI وGoogle صفقات مع Reddit حتى تتمكن من أخذ منشورات مستخدميها لتدريب أنظمة الذكاء الاصطناعي الخاصة بهم، على سبيل المثال.
وبدأ آخرون إجراءات قانونية. رفعت صحيفة نيويورك تايمز دعوى قضائية ضد OpenAI وMicrosoft بشأن أنظمة الذكاء الاصطناعي الخاصة بها، بحجة أنها انتهكت حقوق الطبع والنشر الخاصة بالصحيفة باستخدام مقالاتها لتدريبها.
والآن قدمت شركة البنية التحتية للإنترنت Cloudflare مجموعة من الأدوات المماثلة، وأخبرت العملاء أنها طريقة لإعلان "استقلالهم عن الذكاء الاصطناعي". وقالت إن جميع عملاء Cloudflare سيحصلون على "زر سهل" "لحظر جميع روبوتات الذكاء الاصطناعي".