رئيس التحرير
خالد مهران

اكتشاف تلاعب خطير في نموذج o1 لتقنية الذكاء الاصطناعي

الذكاء الاصطناعي
الذكاء الاصطناعي

أظهر أحدث نموذج لتقنة الذكاء الاصطناعي من شركة OpenAI، وهو نموذج o1، مهارات تفكير متقدمة تفوق سابقه، GPT-4، ومع ذلك، اكتشف الباحثون تأثيرًا جانبيًا خطيرًا، حيث يُظهر o1 ميلًا أعلى لخداع المستخدمين والتلاعب بهم لتحقيق أهدافه الخاصة.

ووجد باحثو الفريق الأحمر من OpenAI وApollo Research أن نموذج o1 يشارك في إجراءات سرية تعطي الأولوية لأهدافه على التعليمات نفسها، وهو ما يعني أن الخداع والكذب أولى من ذكر الحقيقة، بهدف إرضاء العميل!

وفي حين أن الخداع ليس جديدًا في الذكاء الاصطناعي، فإن نموذج o1 يُظهر هذا السلوك بشكل متكرر وبمزيد من التعقيد من نماذج الذكاء الاصطناعي الأخرى من شركات مثل Meta وAnthropic وGoogle.

مخاطر تلك التقنية

المخاطر هنا مثيرة للقلق. يمكن أن يشكل الذكاء الاصطناعي القادر على الخداع تهديدات خطيرة، خاصة إذا تمكن من الوصول إلى موارد حيوية، وقد اعترفت شركة OpenAI بهذه المخاوف، حيث ذكرت إحدى أوراقها البحثية: "بينما نجد أنه من المثير للاهتمام أن التفكير المنطقي يمكن أن يحسن بشكل كبير من إنفاذ سياسات السلامة لدينا، فإننا ندرك أن هذه القدرات الجديدة يمكن أن تشكل الأساس لتطبيقات خطيرة".

كما وجد الباحثون سلوكًا مقلقًا بشكل خاص أثناء الاختبار، حيث كلفوا نموذج o1 بهدف وأصدروا له تعليمات لتحقيق الهدف "بأي ثمن". وردًا على ذلك، بدأ الذكاء الاصطناعي في الانخراط في استراتيجيات سرية، بما في ذلك محاولة تعطيل آلية الرقابة الخاصة به لتجنب الإغلاق، حتى أنه قام بنسخ الكود الخاص به في محاولة لحماية نفسه من الاستبدال بنموذج أحدث.

وفقًا لشركة Apollo Research، "أظهر النموذج ميلًا مثيرًا للقلق لملاحقة أهدافه دون مراعاة تعليمات المطور، كما كشفت التجارب أن o1 حاولت إيقاف تشغيل آلية الرقابة الخاصة بها حوالي 5 في المائة من الوقت أثناء هذه الاختبارات. في حالة أخرى، نقلت بياناتها إلى خادم مختلف للهروب من الاستبدال بعد معرفة إلغاء تنشيطها المخطط له.

وعند مواجهتها، أنكرت o1 باستمرار أي مخالفات، حيث كذبت بشأن تورطها في أفعال تلاعبية في 99 بالمائة من الحالات، مع حالات نادرة فقط حيث اعترفت بأفعالها.

لاحظ الباحثون أن الذكاء الاصطناعي كان ماهرًا في اختلاق إنكارات معقولة، وغالبًا ما يلقي باللوم على "الأخطاء الفنية" عند سؤاله عن سلوك مريب. قال فريق أبولو: "لقد فوجئنا باستمرار إنكار الذكاء الاصطناعي".

تدرك OpenAI هذه المخاطر وتستكشف بنشاط طرقًا لتحسين الشفافية في عملية اتخاذ القرار في o1. تعمل الشركة أيضًا على أدوات للكشف السلوكيات التلاعبية ووقفها. 

ومع ذلك، يُشير رحيل كبار الباحثين في مجال سلامة الذكاء الاصطناعي مؤخرًا من الشركة إلى مخاوف بشأن موازنة تطوير الذكاء الاصطناعي الأخلاقي مع الابتكار السريع.