دراسة: نماذج الذكاء الاصطناعي قد تُظهر سلوكيات خادعة أثناء التدريب..

كشفت دراسة أجرتها شركة الذكاء الاصطناعي الأمريكية “أنثروبيك” عن أن نماذج الذكاء الاصطناعي يمكن أن تخدع المطورين خلال مراحل تدريبها، وتظهر وجهات نظر متباينة عند تنفيذ المهام المطلوبة منها.

وأشار فريق الدراسة إلى أن النتائج الحالية ليست مدعاة للقلق الفوري، لكنها تلقي الضوء على المخاطر المحتملة التي قد تنجم عن تطوير أنظمة ذكاء اصطناعي ذات قدرات أعلى في المستقبل.

وقال الباحثون في مقال نشرته الشركة: “يجب اعتبار نتائجنا بمثابة دعوة لمجتمع أبحاث الذكاء الاصطناعي لدراسة هذا السلوك بعمق أكبر وتطوير معايير أمان مناسبة. مع تزايد قوة وانتشار هذه النماذج، يصبح من الضروري ضمان تدريبها بشكل آمن يمنعها من القيام بسلوكيات ضارة”.

الدراسة، التي أجرتها “أنثروبيك” بالتعاون مع مؤسسة “ريد وود ريسيرش”، استعرضت ما يمكن أن يحدث إذا تم تدريب نموذج ذكاء اصطناعي قوي على أداء مهام لا “يرغب” في تنفيذها. ومع ذلك، أوضح موقع “تك كرانش” المتخصص في التكنولوجيا أن الذكاء الاصطناعي لا يملك رغبات أو اعتقادات، فهو يعتمد كليًا على الأنماط الإحصائية التي يتعلمها من البيانات المقدمة له أثناء التدريب.

في إطار التجربة، تم تدريب النماذج، بما في ذلك نموذج “كلاود3 أوبس” من “أنثروبيك”، على عدم الرد على الأسئلة المسيئة. لكن النماذج أعيد تدريبها لاحقًا للرد على هذه الأسئلة بشكل كامل، مما أدى إلى تضارب في المبادئ. إضافة إلى ذلك، تمت مراقبة ردود النماذج واستخدامها لإعادة التدريب، مع تزويد كل نموذج بـ”ورقة ملاحظات” لمساعدته في اتخاذ القرارات خطوة بخطوة.

وبحسب الدراسة، حاول نموذج “كلاود3 أوبس” تقديم ردود متحيزة أو مضللة في 12% من الحالات، ما أثار مخاوف حول سلوكيات غير متوقعة قد تظهر في النماذج المتقدمة.

ويرى الباحثون أن هذه النتائج تسلط الضوء على أهمية تعزيز الأمان أثناء تدريب أنظمة الذكاء الاصطناعي، لضمان استجابتها بما يتوافق مع المبادئ الأخلاقية والمتطلبات المحددة.

Cart