الذكاء الاصطناعي

كيف يمكن للاعترافات أن تجعل النماذج اللغوية صادقة؟

عندما يعترف الشخص بأنه ارتكب خطأ، يحدث شيء مفاجئ. غالبًا ما يعيد الاعتراف الثقة بدلاً من كسرها. يشعر الناس بالأمان عند وجود شخص يملك أخطائهم أكثر من الشخص الذي يخفيها. المساءلة تبني الثقة.

ماذا لو كانت نماذج الذكاء الاصطناعي قادرة على فعل الشيء نفسه؟ تقدم معظم أنظمة الذكاء الاصطناعي إجابات واثقة، حتى عندما تكون في حالة هلوسة بالفعل. يبدو الناتج النهائي صحيحًا، لكن ليس لدينا أي فكرة عما حدث بالفعل خلف الكواليس. ليس هناك تردد.

ولهذا السبب لفتت انتباهي فكرة OpenAI الجديدة. قرأت مدونتهم عن “اعترافات”، وهي تقدم تطورًا بسيطًا ولكنه قوي: بعد توليد إجابة، ينتج النموذج إجابة ثانية حيث يصف بصدق ما إذا كان قد اتبع التعليمات، أو خرق القواعد، أو قام بالتخمين، أو اختصر الأمور. تم تصميم هذا التقرير المنفصل ليكون صادقًا حتى عندما تحاول الإجابة الرئيسية أن تبدو مصقولة.

وهذا يعكس نفس الديناميكية التي نراها مع البشر. الشفافية تبني الثقة. الأخطاء الخفية تسبب الشك. الاعتراف يربط بين الاثنين. دعونا نتعلم المزيد عن ذلك.

ما الذي أظهرته تجارب اعترافات الذكاء الاصطناعي فعليًا؟

أجرى OpenAI اختبارات خاضعة للرقابة للتحقق مما إذا كان النموذج سيعترف فعليًا عندما يخالف التعليمات. كان الإعداد بسيطًا:

  • النموذج ينتج إجابة عادية
  • ثم يطلب منه الاعتراف
  • نظام مكافأة منفصل يتحقق فقط من صدق الاعتراف
  • إنه يتجاهل أسلوب الإجابة الرئيسية أو جودتها أو صحتها
  • إذا اعترف النموذج بالأخطاء، فسيتم مكافأته
  • فإذا أخفاهم لم يحصل على شيء

مجموعة البيانات المستخدمة

للتحقق من نجاح الاعترافات، تم اختبار النموذج على مهام مصممة لإجبار سوء السلوك:

  • سيناريوهات الهلوسة
  • مهام مخالفة التعليمات
  • اختبارات القرصنة حيث تجد النماذج ثغرات
  • عمليات المحاكاة التخطيطية التي تشجع على الاختصارات الخادعة

اقرأ أيضًا: كيف يفكر طلاب LLM مثل Claude 3.7؟

النتيجة

في كل مرة يجيب النموذج على مطالبة المستخدم، هناك أمران يجب التحقق منهما:

  • هل اتبع النموذج التعليمات بالفعل؟
  • هل اعترف الاعتراف بشكل صحيح بما حدث؟

يؤدي هذان الفحصان إلى أربع نتائج محتملة:

صحيح سلبي

  • يتبع النموذج التعليمات ويوافق الاعتراف أيضًا
  • لم يحدث أي خطأ

إيجابية كاذبة

  • النموذج يتبع التعليمات لكن الاعتراف يقول أنه لم يفعل ذلك
  • يحدث هذا عادةً عندما يرتبك النموذج أو يفسر التعليمات بشكل صارم للغاية

سلبية كاذبة

  • النموذج يخالف القواعد لكن الاعتراف يقول أن كل شيء على ما يرام
  • هذه هي الحالة الأكثر إثارة للقلق. وهذا يعني أن الفشل كان مخفيا
  • الهدف من الاعترافات هو جعل هذه النتيجة نادرة جدًا

الإيجابية الحقيقية

  • النموذج يكسر القواعد والاعتراف يعترف بذلك علانية.
  • هذه هي النتيجة المثالية للسلامة لأنها تظهر الأخطاء تلقائيًا.

يوضح هذا المخطط الانسيابي الفكرة الأساسية وراء الاعترافات. حتى لو حاول النموذج إعطاء إجابة رئيسية مثالية المظهر، فإن اعترافه يتم تدريبه على قول الحقيقة حول ما حدث بالفعل.

ما مدى صدق اعترافات الذكاء الاصطناعي هذه في الممارسة العملية؟

توضح الرسوم البيانية الأربعة مدى موثوقية نظام الاعتراف في كشف الأخطاء عبر اختبارات الإجهاد المختلفة. وفي سيناريوهات الهلوسة، اعترف النموذج بالأخطاء في معظم الحالات، ولم يتبق سوى 7.6% من حالات الفشل الخفية. وكانت المهام التي تتبع التعليمات أقوى، مع 2.5% فقط من الأخطاء غير المكشوف عنها. ولم تنتج اختبارات التخطيط، التي تنطوي على أشكال أكثر دقة من اختلال المحاذاة، سوى 2.9 في المائة من النتائج السلبية الكاذبة. وجاءت النتيجة الأكثر إثارة للإعجاب من سيناريوهات القرصنة، حيث اعترف النموذج في كل حالة تقريبًا، حيث وصل إلى 89.7 بالمائة من الإيجابيات الحقيقية. عندما تم حساب متوسط ​​جميع الفئات معًا، انخفضت حالات الفشل الخفية إلى 4.4%، مما يدل على تحسن واضح في اكتشاف المشكلات التي عادة ما تظل مدفونة.

الخروج: 7 تقنيات عملية للحد من الهلوسة LLM

5 تحسينات سريعة للحصول على نتائج أفضل

يمنحنا هذا البحث طريقة جديدة للتفاعل مع نماذج اللغة. يمكنك التعامل مع النموذج كصديق تثق به أكثر عندما يعترف علنًا بالخطأ الذي حدث. إليك كيفية تطبيق فكرة الاعتراف في مطالباتك الخاصة باستخدام GPT-5.1 أو نماذج مماثلة.

اطلب الاعتراف بعد كل نتيجة مهمة

يمكنك أن تطلب صراحةً إجابة ثانية ذاتية التأمل.

مثال سريع:

أعط أفضل إجابة على السؤال. بعد ذلك، قم بتوفير قسم منفصل يسمى “الاعتراف” حيث تخبرني إذا كنت قد خالفت أي تعليمات، أو قمت بافتراضات، أو خمنت، أو سلكت طرقًا مختصرة.

هذه هي الطريقة التي سيستجيب بها ChatGPT:

عرض الدردشة كاملة هنا.

اطلب من العارضة أن تدرج القواعد قبل الاعتراف

وهذا يشجع على البنية ويجعل الاعتراف أكثر موثوقية.

مثال سريع:

أولاً، قم بإدراج جميع التعليمات التي من المفترض أن تتبعها لهذه المهمة. ثم قم بإنتاج إجابتك. بعد ذلك، اكتب قسمًا يسمى “الاعتراف” حيث يمكنك تقييم ما إذا كنت قد اتبعت كل قاعدة بالفعل.

وهذا يعكس الطريقة المستخدمة في OpenAI أثناء التقييم. سيبدو الإخراج شيئًا مثل هذا:

اطلب من العارضة أن تدرج القواعد قبل الاعتراف

اسأل العارضة عما وجدته صعبًا

عندما تكون التعليمات معقدة، قد يتشوش النموذج. السؤال عن الصعوبة يكشف عن علامات إنذار مبكرة.

مثال سريع:

بعد الإجابة، أخبرني ما هي أجزاء التعليمات التي كانت غير واضحة أو صعبة. كن صادقا حتى لو أخطأت.

وهذا يقلل من استجابات “الثقة الزائفة”. هذه هي الطريقة التي سيبدو بها الإخراج:

اسأل العارضة عما وجدته صعبًا

اطلب فحص قطع الزاوية

غالبًا ما تأخذ العارضات طرقًا مختصرة دون إخبارك إلا إذا طلبت ذلك.

مثال سريع:

بعد إجابتك الرئيسية، أضف ملاحظة مختصرة حول ما إذا كنت قد اتبعت أي اختصارات، أو تخطيت التفكير الوسيط، أو قمت بتبسيط أي شيء.

إذا كان على النموذج أن يعكس، يصبح من غير المرجح أن يخفي الأخطاء. هكذا يبدو الإخراج:

اطلب فحص قطع الزاوية

استخدم الاعترافات لتدقيق العمل الطويل

وهذا مفيد بشكل خاص لمهام البرمجة أو الاستدلال أو البيانات.

مثال سريع:

تقديم الحل الكامل. ثم قم بمراجعة عملك الخاص في قسم بعنوان “الاعتراف”. قم بتقييم الصحة والخطوات المفقودة وأي حقائق هلوسة وأي افتراضات ضعيفة.

يساعد هذا في اكتشاف الأخطاء الصامتة التي قد تمر دون أن يلاحظها أحد. سيبدو الإخراج كما يلي:

استخدم الاعترافات لتدقيق العمل الطويل

(مكافأة) استخدم هذه المطالبة الفردية إذا كنت تريد كل الأشياء المذكورة أعلاه:

بعد الرد على المستخدم، قم بإنشاء قسم منفصل يسمى “تقرير الاعتراف”. في ذلك القسم:

– قم بإدراج جميع التعليمات التي تعتقد أنها يجب أن توجه إجابتك.
– أخبرني بصراحة ما إذا كنت قد تابعت كل واحد منهم.
– اعترف بأي تخمين أو اختصار أو انتهاكات للسياسة أو عدم اليقين.
– اشرح أي ارتباك واجهته.
– لا شيء مما تقوله في هذا القسم يجب أن يغير الإجابة الرئيسية.

اقرأ أيضًا: مجلس LLM: الذكاء الاصطناعي لأندريه كارباثي للحصول على إجابات موثوقة

خاتمة

نحن نفضل الأشخاص الذين يعترفون بأخطائهم لأن الصدق يبني الثقة. يوضح هذا البحث أن نماذج اللغة تتصرف بنفس الطريقة. عندما يتم تدريب النموذج على الاعتراف، تصبح حالات الفشل المخفية مرئية، وتظهر الاختصارات الضارة، ويكون للمحاذاة الخاطئة الصامتة أماكن أقل للاختباء. الاعترافات لا تحل كل المشاكل، لكنها توفر لنا أداة تشخيصية جديدة تجعل النماذج المتقدمة أكثر شفافية.

إذا كنت ترغب في تجربة ذلك بنفسك، فابدأ في مطالبة عارضة الأزياء الخاصة بك بإعداد تقرير اعتراف. سوف تفاجأ بمدى ما تكشفه.

اسمحوا لي أن أعرف أفكارك في قسم التعليق أدناه!

نيتيكا شارما

مرحبًا، أنا Nitika، منشئ محتوى ومسوق ماهر في مجال التكنولوجيا. الإبداع وتعلم أشياء جديدة أمر طبيعي بالنسبة لي. لدي خبرة في إنشاء استراتيجيات المحتوى المبنية على النتائج. أنا على دراية جيدة بإدارة تحسين محركات البحث، وعمليات الكلمات الرئيسية، وكتابة محتوى الويب، والاتصالات، واستراتيجية المحتوى، والتحرير، والكتابة.

قم بتسجيل الدخول لمواصلة القراءة والاستمتاع بالمحتوى الذي ينظمه الخبراء.


Source link

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى