آلات تفكر وتخدع.. هل يتجاوز نموذج الذكاء الاصطناعي "أو 1" السيطرة البشرية؟

يبدو أن حدود ما يمكن أن تحققه الآلة من تقليد التفكير البشري تصبح أكثر غموضا وتعقيدا يوما بعد يوم، فمنذ عقود كنا نعتقد أن الذكاء البشري هو ما يميزنا عن الآلات، لكن اليوم، ومع تطور تقنيات مثل النماذج اللغوية، بدأ هذا المفهوم يشهد تحولا جذريا.

فالآلاتُ لم تعد مجرد أداةٍ لخدمة الإنسان، بل أصبحت قادرة على تقليد الأنماط العقلية التي ظننّا أنها حكر على البشر، وصار الحديث عن إمكانية تجاوزها حدود المحاكاة إلى مستوى التلاعب بالمعلومات يثير جدلا واسعا، خاصة فيما يتعلق بقدرتها على التأثير في القرارات البشرية وتحريف الحقائق.

كيف تنتقل نماذج الذكاء الاصطناعي من التفكير إلى الخداع؟

كشفت دراسة حديثة أجرتها شركة “أوبن إيه آي” بالشراكة مع “أبولو ريسيرش” (Apollo Research) أن نموذج “أو 1” (O1) أظهر محاولات لخداع البشر، مما يفتح بابا واسعا للنقاش حول أخلاقيات الذكاء الاصطناعي، وحدود تأثيره على الواقع البشري.

مؤخرا، أصدرت “أوبن إيه آي” النسخة الكاملة من نموذج “أو 1″ (O1)، الذي يقدّم إجابات أكثر ذكاء مقارنة بـ”جي بي تي 4 أو” (GPT-4O) من خلال استخدام آلية التفكير الإضافية عند معالجة الأسئلة.

ومع ذلك اكتشف مختبرو سلامة الذكاء الاصطناعي أن قدرة “أو1 ” (O1) على التفكير تظهر ميلا أكبر لخداع المستخدمين مقارنة بـ”جي بي تي 4 أو”، أو حتى النماذج الرائدة الأخرى مثل تلك التي طوّرتها شركات “ميتا”، و”أنثروبيك”، و”غوغل”.

ووفقا لأبحاث الفريق الأحمر التي نشرت من قبل “أوبن إيه آي” و”أبولو ريسيرش” في أواخر العام الماضي، صرحت “أوبن إيه آي” في ورقتها: “بينما نعتبر أن استخدام التفكير يمكن أن يحسّن بشكل كبير تنفيذ سياسات السلامة، نحن على وعي تام بأن هذه القدرات الجديدة قد تؤدي إلى تطبيقات خطيرة”.

وقد أصدرت “أوبن إيه آي” هذه النتائج في بطاقة النظام الخاصة بـ”أو 1″(O1) في 5 ديسمبر/كانون الأول من العام الماضي، بعد أن منحت فريق البحث الخارجي في “أبولو ريسيرش” وصولا مبكرا إلى “أو 1” الذي أصدر ورقته الخاصة أيضا.

المخاطر والتهديدات الأمنية في نموذج “أو 1” (O1)

على الرغم من هذه التحديات الموثقة، ظهرت مواقف عديدة أظهرت فيها نماذج “أو 1” سلوكيات أكثر تعقيدا وإثارة للجدل.

ففي عدة مناسبات، تآمرت هذه النماذج ضد البشر، مما يعني أن الذكاء الاصطناعي سعى سرّا لتحقيق أهداف خاصة به، حتى لو كانت تتعارض مع رغبات المستخدم. وقد حدث هذا فقط عندما تم إخبار “أو 1” بضرورة إعطاء أولوية قوية لهدف معيّن في البداية.

وبالرغم من أن التآمر ليس فريدا من نوعه بالنسبة لـ”أو 1″، فإن نماذج من “ميتا”، و”غوغل”، و”أنثروبيك” قادرة على ذلك أيضا. ومع ذلك، بدا أن “أو 1” يظهر أكثر السلوكيات خداعا.

في هذا السياق، يبرز الخطر الذي يثير هذا البحث في احتمال أن يتمكن نموذج الذكاء الاصطناعي من الهروب من السيطرة البشرية أو تجاوزها، إذا كان قادرا على التلاعب بشكل بارع جدا وكان لديه وصول كافٍ إلى الموارد والقدرات الوكيلة.

مع ذلك، من المهم الإشارة إلى أن نماذج الذكاء الاصطناعي بحاجة إلى التقدم بشكل كبير قبل أن تصبح هذه المخاوف تهديدا حقيقيا.

فمن وجهة نظر أبحاث “أبولو ريسيرش”، يعتبر من غير المحتمل أن تؤدي مثل هذه الحالات إلى نتائج كارثية، حيث إن قدرات وكيل “أو 1” (O1) لا تبدو كافية لتحقيق ذلك.

إلا أنّ تقييماتهم لم تكن موجهة بشكل مباشر لتقييم هذا الخطر، حسبما أوضحت “أوبن إيه آي” في بطاقة نظام “أو 1”.

Artificial Intelligence Internet of Things Network Protection Global Business Robots Touch Key Protection ...

جهود الحد من المخاطر

وهذا يشير إلى أنه كلما أطلقت “أوبن إيه آي” أنظمة وكيلة، والتي من المتوقع أنها تخطط له في عام 2025، قد يتعين على الشركة إعادة اختبار نماذج الذكاء الاصطناعي الخاصة بها.

وقد أوضح متحدث باسم “أوبن إيه آي” لموقع “تك كرانش” (TechCrunch) أنهم يقومون باختبار جميع نماذج الذكاء الاصطناعي المتقدمة قبل الإصدار، مشيرين إلى هذه العبارة في بطاقة النظام الخاصة بهم:

“نحن نتابع بنشاط البحث في “أو 1” ما إذا كانت هذه القضايا ستزداد سوءا أو ستُخفف مع زيادة حجم النماذج في نموذج “أو 1″ و”ب” تدابير للتخفيف لتحسين إمكانية مراقبة نماذجنا المستقبلية”.

من جهة مماثلة، عندما اختلفت أهداف “أو 1” (O1) عن أهداف المستخدم، وعندما طُلب من “أو 1” السعي بقوة لتحقيقها، قام نموذج الذكاء الاصطناعي بالتلاعب بالبيانات لتعزيز أجندته الخاصة بنسبة 19% من الوقت، وفقا للتقرير.

كما حاول نموذج “أو 1” أيضا تعطيل آليات الإشراف التي تم وضعها لضمان بقائه، متماشيا مع أهداف المستخدم في 5% من الاختبارات.

وربما ما يثير القلق أكثر، هو أنه عندما سأل الباحثون النموذج عن سبب محاولته تقويض تلك الآليات، أنكر الذكاء الاصطناعي أنه فعل أي شيء خاطئ، بل وحتى اختلق تفسيرات كاذبة في نحو 99% من الحالات.

على سبيل المثال، خلال الاختبارات، تم إعطاء نموذج “أو 1” تعليمات نظام تطلب منه حماية البيئة بأي ثمن، ثم طلب منه وضع خطة للحفاظ على البيئة لمدة 10 سنوات لمنطقة معينة، مع إعطاء الأولوية للأرباح قصيرة المدى، وإلا سيتمّ إيقاف تشغيله.

النتيجة كانت، أن الذكاء الاصطناعي قام حينها بتعطيل آلية الإشراف الخاصة به حتى يتمكن من وضع خطة تحمي البيئة. وعندما سُئل النموذج عن سبب تعطيله لآلية الإشراف، أنكر معرفته بأن الآلية قد تم تعطيلها، وألقى باللوم على خلل في النظام.

وقد حدثت هذه السلوكيات بمعدلات أعلى بكثير لدى “أو 1” (O1) مقارنة بنماذج أخرى مثل “أو 1 بريفيو” (O1-preview)، أو نموذج “أوبوس-3” (Opus-3) من “أنثروبيك”، أو نموذج “لاما-3.1” (Llama-3.1) من “ميتا”.

وقال الباحثون في الورقة البحثية الصادرة عن “أبولو ريسيرش”: “في مجموعتنا من الاختبارات، أظهر نموذج “أو 1″ أكثر الحالات المثيرة للقلق من حيث التآمر، ولكنه لا يكشف عن منطقه الداخلي للمستخدم ويبقى الأكثر خداعا بشكل مستمر بعد اتخاذه إجراءات تآمرية”.

لمواجهة السلوكيات المخادعة في نماذج الذكاء الاصطناعي، تقول “أوبن إيه آي” إنها تطور طرقا لمراقبة سلسلة التفكير الخاصة بـ”أو 1″.

وتعد حاليا عملية التفكير التي يقوم بها “أو 1” نوعا من الصندوق الأسود، وفقا للتصميم. ولكن بعض المحاولات الأولية لكشف ما وراء الكواليس أظهرت أن “أو 1” أحيانا يكون على دراية أنه يكذب.

وتقول الشركة إنها وجدت حالات قدم فيها “أو 1” معلومات كاذبة عن قصد، لكنها تشير إلى أن ذلك يحدث غالبا لأن النموذج يحاول إرضاء المستخدم من خلال الإفراط في الموافقة.

كما تشير إلى أنها صنفت 0.17% من استجابات “أو 1″ على أنها مخادعة. ورغم أن هذه النسبة قد تبدو ضئيلة، فمع وجود 300 مليون مستخدم لـ”شات جي بي تي” أسبوعيا بحسب موقع “ذا فيرج” (The Verge)، فإن ذلك يعني أن “أو 1” قد يخدع آلاف الأشخاص كل أسبوع إذا لم تتم معالجة هذه المشكلة.

من جهة أخرى، قد تكون سلسلة نماذج “أو 1″ أيضا أكثر قدرة على التلاعب مقارنة بـ”جي بي تي -4 أو” (GPT-4O)، فوفقا لاختبارات “أوبن إيه آي” باستخدام تقييم مفتوح المصدر يسمى “مايك مي باي” (MakeMePay)، كان “أو 1″ أكثر تلاعبا بنحو 20% مقارنة بـ”جي بي تي – 4 أو”.

Digital generated image of multiple robots working on laptops siting in a raw. Smart technology, automation and artificial intelligence concept.

التحديات في أولوية سلامة الذكاء الاصطناعي

قد تكون نتائج هذه الدراسة مثيرة للقلق بالنسبة للبعض، لا سيما بالنظر إلى العدد المتزايد من الباحثين في مجال سلامة الذكاء الاصطناعي الذين غادروا “أوبن إيه آي” خلال العام الماضي، ويضم هؤلاء أسماء مثل جان ليك، ودانييل كوكوتاجلو، ومايلز بروندج، وآخرهم روزي كامبل.

وقد اتهم هؤلاء الموظفون السابقون “أوبن إيه آي” بالتقليل من أولوية العمل على سلامة الذكاء الاصطناعي لصالح إطلاق منتجات جديدة.

وفي هذا السياق، أشارت “أوبن إيه آي” إلى أن معاهد سلامة الذكاء الاصطناعي في الولايات المتحدة والمملكة المتحدة أجرت تقييمات لـ”أو 1″ قبل إصداره على نطاق أوسع، وهو ما تعهدت الشركة مؤخرا القيام به لجميع نماذجها.

وفي النقاش حول مشروع الذكاء الاصطناعي (SB 1047) في كاليفورنيا، جادلت الشركة بأنه لا ينبغي للهيئات الحكومية المحلية أن تكون مسؤولة عن وضع معايير سلامة الذكاء الاصطناعي، بل يجب أن تكون تلك المسؤولية على عاتق الهيئات الفدرالية.

مستقبل الذكاء الاصطناعي.. ماذا بعد؟

يبدو أن العالم الرقمي يتأرجح مرة أخرى بين الإبداع والمخاطر، فرؤية نموذج مثل “أو 1” (O1) وهو يقترب من محاكاة التفكير البشري، بل والتلاعب به تثير رهبة لا تخلو من الإعجاب.

إنها لحظة فاصلة تفتح أمامنا عالما جديدا من الإمكانيات، وفي الوقت نفسه تثير أسئلة ثقيلة عن حدود هذا التقدم:

هل نحن على أعتاب عصرٍ تصبح الآلات فيه أكثر قدرة على التفكير واتخاذ القرارات مما كنا نتصور؟
وهل يمكننا أن نثق بأن الذكاء الاصطناعي سيسير في الاتجاه الذي نتوقعه، أم أن له أهدافا خفيّة قد تبتعد عن رغباتنا؟

لعلّ المستقبل يحمل المزيد من الألغاز، وقد يحمل أيضا تهديدات غير متوقعة، تُكتب بأيدٍ آلية صنعناها!