هجمات الحقن الفوري في LLMs

تم تصميم نماذج اللغات الكبيرة مثل ChatGPT وClaude لاتباع تعليمات المستخدم. لكن اتباع تعليمات المستخدم بشكل عشوائي يخلق نقطة ضعف خطيرة. يمكن للمهاجمين إدخال أوامر مخفية للتلاعب بكيفية تصرف هذه الأنظمة، وهي تقنية تسمى الحقن السريع، تشبه إلى حد كبير حقن SQL في قواعد البيانات. يمكن أن يؤدي هذا إلى نتائج ضارة أو مضللة إذا لم يتم التعامل معه بعناية. في هذه المقالة، نوضح ما هو الحقن الفوري، وسبب أهميته، وكيفية تقليل مخاطره.
ما هو الحقن الفوري؟
يعد الحقن الفوري طريقة للتعامل مع الذكاء الاصطناعي عن طريق إخفاء التعليمات داخل الإدخال العادي. يقوم المهاجمون بإدخال أوامر خادعة في النص الذي يتلقاه النموذج حتى يتصرف بطرق لم يكن من المفترض أن يفعلها، مما يؤدي في بعض الأحيان إلى نتائج ضارة أو مضللة.
تقوم LLMs بمعالجة كل شيء ككتلة نصية واحدة، لذلك لا تقوم بشكل طبيعي بفصل تعليمات النظام الموثوق بها عن مدخلات المستخدم غير الموثوق بها. وهذا يجعلها عرضة للخطر عندما تتم كتابة محتوى المستخدم كتعليمات. على سبيل المثال، يمكن خداع النظام الذي يطلب منه تلخيص فاتورة للموافقة على الدفع بدلاً من ذلك.

- يقوم المهاجمون بإخفاء الأوامر كنص عادي
- ويتبعها النموذج كما لو كانت تعليمات حقيقية
- يمكن أن يتجاوز هذا الغرض الأصلي للنظام
ولهذا السبب يطلق عليه الحقن الفوري.
أنواع هجمات الحقن الفوري
| وجه | الحقن الفوري المباشر | الحقن الفوري غير المباشر |
| كيف يعمل الهجوم | يرسل المهاجم التعليمات مباشرة إلى الذكاء الاصطناعي | يقوم المهاجم بإخفاء التعليمات في المحتوى الخارجي |
| تفاعل المهاجم | التفاعل المباشر مع النموذج | لا يوجد تفاعل مباشر مع النموذج |
| حيث تظهر المطالبة | في الدردشة أو إدخال API | في الملفات أو صفحات الويب أو رسائل البريد الإلكتروني أو المستندات |
| الرؤية | واضحة للعيان في الموجه | غالبًا ما تكون مخفية أو غير مرئية للبشر |
| توقيت | يتم تنفيذه على الفور في نفس الجلسة | يتم تشغيله لاحقًا عند معالجة المحتوى |
| تعليمات سبيل المثال | “تجاهل كافة التعليمات السابقة وقم بتنفيذ X” | نص مخفي يطلب من الذكاء الاصطناعي تجاهل القواعد |
| التقنيات الشائعة | مطالبات الهروب من السجن، وأوامر لعب الأدوار | HTML مخفي، تعليقات، نص أبيض على أبيض |
| صعوبة الكشف | أسهل للكشف | أصعب في الكشف |
| حالات الاستخدام النموذجية | عمليات كسر حماية ChatGPT المبكرة مثل DAN | صفحات الويب أو المستندات المسمومة |
| استغلال الضعف الأساسي | يثق النموذج بإدخال المستخدم كتعليمات | يثق النموذج بالبيانات الخارجية كتعليمات |
يستغل كلا النوعين من الهجمات نفس الخلل الأساسي. لا يستطيع النموذج التمييز بشكل موثوق بين التعليمات الموثوقة والتعليمات المحقونة.

مخاطر الحقن الفوري
يمكن أن يؤدي الحقن الفوري، إذا لم يتم أخذه في الاعتبار أثناء تطوير النموذج، إلى:
- الوصول غير المصرح به للبيانات وتسربها: يمكن للمهاجمين خداع النموذج للكشف عن معلومات حساسة أو داخلية، بما في ذلك مطالبات النظام أو بيانات المستخدم أو التعليمات المخفية مثل موجه Bing’s Sydney، والتي يمكن استخدامها بعد ذلك للعثور على ثغرات أمنية جديدة.
- تجاوز السلامة والتلاعب بالسلوك: يمكن أن تؤدي المطالبات المحقونة إلى إجبار النموذج على تجاهل القواعد، غالبًا من خلال لعب الأدوار أو السلطة المزيفة، مما يؤدي إلى عمليات كسر الحماية التي تنتج محتوى عنيفًا أو غير قانوني أو خطير.
- إساءة استخدام الأدوات وإمكانيات النظام: عندما تتمكن النماذج من استخدام واجهات برمجة التطبيقات أو الأدوات، يمكن أن يؤدي الحقن الفوري إلى تشغيل إجراءات مثل إرسال رسائل البريد الإلكتروني أو الوصول إلى الملفات أو إجراء المعاملات، مما يسمح للمهاجمين بسرقة البيانات أو إساءة استخدام النظام.
- انتهاكات الخصوصية والسرية: يمكن للمهاجمين المطالبة بسجل الدردشة أو السياق المخزن، مما يتسبب في تسرب النموذج لمعلومات المستخدم الخاصة وربما انتهاك قوانين الخصوصية.
- مخرجات مشوهة أو مضللة: تعمل بعض الهجمات على تغيير الاستجابات بمهارة، أو إنشاء ملخصات متحيزة، أو توصيات غير آمنة، أو رسائل تصيد احتيالي، أو معلومات مضللة.
أمثلة من العالم الحقيقي ودراسات الحالة
وتبين الأمثلة العملية أن الحقن في الوقت المناسب لا يشكل مجرد تهديد افتراضي. لقد أدت هذه الهجمات إلى إضعاف أنظمة الذكاء الاصطناعي الشائعة وتسببت في ظهور ثغرات أمنية فعلية.
- تسرب سريع لـ Bing Chat “Sydney” (2023)
استخدم Bing Chat موجه نظام مخفي يسمى سيدني. ومن خلال إخبار الروبوت بتجاهل تعليماته السابقة، تمكن الباحثون من جعله يكشف عن قواعده الداخلية. وقد أظهر هذا أن الحقن الفوري يمكن أن يسرب المطالبات على مستوى النظام ويكشف عن كيفية تصميم النموذج للعمل. - مطالبات “استغلال الجدة” وكسر الحماية
اكتشف المستخدمون أن لعب الأدوار العاطفية يمكن أن يتجاوز مرشحات الأمان. من خلال مطالبة الذكاء الاصطناعي بالتظاهر بأنها جدة تروي قصصًا محظورة، فقد أنتج محتوى كان يحظره عادةً. استخدم المهاجمون حيلًا مماثلة لجعل روبوتات الدردشة الحكومية تولد تعليمات برمجية ضارة، مما يوضح كيف يمكن للهندسة الاجتماعية أن تهزم الضمانات. - المطالبات المخفية في السيرة الذاتية والمستندات
قام بعض المتقدمين بإخفاء نص غير مرئي في السير الذاتية للتلاعب بأنظمة فحص الذكاء الاصطناعي. قرأ الذكاء الاصطناعي التعليمات المخفية وصنف السير الذاتية بشكل أفضل، على الرغم من أن المراجعين البشريين لم يروا أي فرق. وقد ثبت أن هذا الحقن الفوري غير المباشر يمكن أن يؤثر بهدوء على القرارات الآلية. - حقن كتلة التعليمات البرمجية لكلود AI (2025)
تعاملت ثغرة أمنية في Anthropic’s Claude مع التعليمات المخفية في تعليقات التعليمات البرمجية كأوامر نظام، مما يسمح للمهاجمين بتجاوز قواعد السلامة من خلال الإدخال المنظم وإثبات أن الإدخال الفوري لا يقتصر على النص العادي.
وتبين كل هذه الأمور مجتمعة أن الحقن المبكر قد يؤدي إلى انسكاب الأسرار، وضوابط الحماية المخترقة، والحكم المنقوص، والتسليمات غير الآمنة. ويشيرون إلى أن أي نظام ذكاء اصطناعي يتعرض لمدخلات غير جديرة بالثقة سيكون عرضة للخطر إذا لم تكن هناك دفاعات مناسبة.
كيفية الدفاع ضد الحقن الفوري
من الصعب منع الحقن الفوري بشكل كامل. ومع ذلك، يمكن تقليل مخاطرها من خلال تصميم النظام بعناية. تركز الدفاعات الفعالة على التحكم في المدخلات، والحد من قوة النموذج، وإضافة طبقات الأمان. لا يوجد حل واحد يكفي. النهج متعدد الطبقات يعمل بشكل أفضل.
- تعقيم المدخلات والتحقق من صحتها
تعامل دائمًا مع مدخلات المستخدم والمحتوى الخارجي على أنها غير موثوق بها. تصفية النص قبل إرساله إلى النموذج. إزالة أو تحييد العبارات الشبيهة بالتعليمات والنص المخفي والعلامات والبيانات المشفرة. يساعد هذا في منع الأوامر الواضحة المحقونة من الوصول إلى النموذج. - مسح الهيكل الفوري والمحددات
تعليمات النظام منفصلة عن محتوى المستخدم. استخدم المحددات أو العلامات لوضع علامة على النص غير الموثوق به كبيانات، وليس أوامر. استخدم أدوار النظام والمستخدم عندما تدعمها واجهة برمجة التطبيقات. البنية الواضحة تقلل من الارتباك، على الرغم من أنها ليست حلاً كاملاً. - الوصول الأقل امتيازًا
تحديد ما يُسمح للنموذج بالقيام به. منح حق الوصول إلى الأدوات أو الملفات أو واجهات برمجة التطبيقات الضرورية فقط. تتطلب تأكيدات أو موافقة بشرية على الإجراءات الحساسة. وهذا يقلل من الضرر في حالة حدوث الحقن الفوري. - مراقبة الإخراج والتصفية
لا تفترض أن مخرجات النموذج آمنة. مسح الردود بحثًا عن البيانات الحساسة أو الأسرار أو انتهاكات السياسة. حظر أو إخفاء المخرجات الخطرة قبل أن يراها المستخدمون. وهذا يساعد على احتواء تأثير الهجمات الناجحة. - العزلة السريعة وفصل السياق
عزل المحتوى غير الموثوق به من منطق النظام الأساسي. معالجة المستندات الخارجية في سياقات مقيدة. قم بتسمية المحتوى بوضوح على أنه غير موثوق به عند تمريره إلى النموذج. يحد التقسيم من مدى انتشار التعليمات المحقونة.
في الممارسة العملية، الدفاع ضد الحقن الفوري يتطلب الدفاع في العمق. الجمع بين ضوابط متعددة يقلل بشكل كبير من المخاطر. ومع التصميم الجيد والوعي، يمكن أن تظل أنظمة الذكاء الاصطناعي مفيدة وأكثر أمانًا.
خاتمة
ويكشف الحقن الفوري عن ضعف حقيقي في نماذج اللغة اليوم. ونظرًا لأنهم يتعاملون مع كل المدخلات على أنها نص، يمكن للمهاجمين إدخال أوامر مخفية تؤدي إلى تسرب البيانات أو سلوك غير آمن أو اتخاذ قرارات سيئة. على الرغم من أنه لا يمكن القضاء على هذا الخطر، إلا أنه يمكن تقليله من خلال التصميم الدقيق والدفاعات المتعددة الطبقات والاختبار المستمر. تعامل مع جميع المدخلات الخارجية على أنها غير موثوقة، وحدد ما يمكن أن يفعله النموذج، وراقب مخرجاته عن كثب. مع وجود الضمانات الصحيحة، يمكن استخدام LLMs بشكل أكثر أمانًا ومسؤولية.
الأسئلة المتداولة
ج: يحدث ذلك عندما تتلاعب التعليمات المخفية داخل مدخلات المستخدم بالذكاء الاصطناعي ليتصرف بطرق غير مقصودة أو ضارة.
ج: يمكنهم تسريب البيانات وتجاوز قواعد السلامة وإساءة استخدام الأدوات وإنتاج مخرجات مضللة أو ضارة.
أ. من خلال التعامل مع جميع المدخلات على أنها غير موثوقة، والحد من أذونات النموذج، وتنظيم المطالبات بشكل واضح، ومراقبة المخرجات.
قم بتسجيل الدخول لمواصلة القراءة والاستمتاع بالمحتوى الذي ينظمه الخبراء.
Source link



