لماذا يخطئ الذكاء الاصطناعي في قراءة منتصف أفضل صفحاتك؟

الوسط هو حيث يموت المحتوى الخاص بك، وليس لأن كتابتك أصبحت سيئة فجأة في منتصف الصفحة، وليس لأن القارئ يشعر بالملل. ولكن لأن نماذج اللغة الكبيرة تعاني من ضعف متكرر مع السياقات الطويلة، وأنظمة الذكاء الاصطناعي الحديثة تضغط بشكل متزايد على المحتوى الطويل حتى قبل أن يقرأه النموذج.
هذا المزيج يخلق ما أعتقد أنه تفكير عظم الكلب. قوي في البداية، قوي في النهاية، والوسط يصبح متذبذبًا. ينحرف النموذج أو يفقد الخيط أو يلتقط تفاصيل داعمة خاطئة. يمكنك أن تنشر مقالة طويلة ومدروسة جيدًا وتستمر في مشاهدة النظام وهو يرفع المقدمة، ويرفع الخاتمة، ثم يهلوس النسيج الضام بينهما.
وهذه ليست نظرية كما يظهر في الأبحاث، كما يظهر في أنظمة الإنتاج.
لماذا يحدث عظم الكلب
هناك وضعان للفشل المكدس، ويصلان إلى نفس المكان.
أولاً، “الضياع في المنتصف” أمر حقيقي. قام ستانفورد وزملاؤه بقياس كيفية تصرف النماذج اللغوية عندما تتحرك المعلومات الأساسية داخل المدخلات الطويلة. كان الأداء في أعلى مستوياته غالبًا عندما كانت المادة ذات الصلة في البداية أو النهاية، وانخفض عندما كانت المادة ذات الصلة في المنتصف. هذا هو نمط عظمة الكلب، كمياً.
ثانيًا، أصبحت السياقات الطويلة أكبر حجمًا، لكن الأنظمة أصبحت أيضًا أكثر عدوانية فيما يتعلق بالضغط. حتى لو كان النموذج يمكن أن يأخذ مدخلات ضخمة، فإن مسار المنتج كثيرًا ما يتم تقليمه أو تلخيصه أو ضغطه للتحكم في التكلفة والحفاظ على استقرار سير عمل الوكيل. وهذا يجعل الجزء الأوسط أكثر هشاشة، لأنه أسهل جزء يمكن طيه إلى ملخص طري.
مثال جديد: ATACompressor عبارة عن ورقة بحثية arXiv لعام 2026 تركز على الضغط التكيفي والمدرك للمهام لمعالجة السياق الطويل. إنه يؤطر بشكل صريح “الضياع في المنتصف” كمشكلة في السياقات الطويلة ويضع الضغط كاستراتيجية يجب أن تحافظ على المحتوى ذي الصلة بالمهمة مع تقليص كل شيء آخر.
لقد كنت على حق إذا طلبت من شخص ما “تقصير المنتصف”. الآن، أود أن أقدم هذا التحسين:
أنت لا تقوم بتقصير الوسط في LLM بقدر ما تقوم بهندسة الوسط للتغلب على تحيز الانتباه والضغط.
مرشحان، منطقة خطر واحدة
فكر في أن المحتوى الخاص بك يمر عبر مرشحين قبل أن يصبح إجابة.
- عامل التصفية 1: نموذج سلوك الانتباه: حتى لو قام النظام بتمرير النص بالكامل، فإن قدرة النموذج على استخدامه تكون حساسة للموضع. تميل البداية والنهاية إلى الأداء الأفضل، ويميل الوسط إلى الأداء الأسوأ.
- عامل التصفية 2: إدارة السياق على مستوى النظام: قبل أن يرى النموذج أي شيء، تقوم العديد من الأنظمة بتكثيف المدخلات. يمكن أن يكون ذلك تلخيصًا صريحًا، أو ضغطًا مكتسبًا، أو أنماط “طي السياق” التي يستخدمها الوكلاء لإبقاء الذاكرة العاملة صغيرة. أحد الأمثلة في هذا المجال هو AgentFold، الذي يركز على طي السياق الاستباقي لوكلاء الويب ذوي الأفق الطويل.
إذا قبلت هذين المرشحين كالمعتاد، يصبح الوسط منطقة خطر مزدوج. يتم تجاهله في كثير من الأحيان، ويتم ضغطه في كثير من الأحيان.
هذا هو المنطق المتوازن مع فكرة عظمة الكلب. يصبح نهج “تقصير الوسط” بمثابة تخفيف مباشر لكلا المرشحين. أنت تقوم بتقليل ما سيضغطه النظام بعيدًا، وتجعل ما يبقى أسهل بالنسبة للنموذج لاسترجاعه واستخدامه.
ما يجب فعله حيال ذلك دون تحويل كتابتك إلى ورقة المواصفات
هذه ليست دعوة للتخلص من الشكل الطويل، حيث أن الشكل الطويل لا يزال مهمًا للبشر وللأجهزة التي تستخدم المحتوى الخاص بك كقاعدة معرفية. الإصلاح هيكلي، وليس “اكتب أقل”.
تريد أن يحمل الوسط كثافة معلومات أعلى مع نقاط تثبيت أكثر وضوحًا.
إليك الإرشادات العملية، التي تم الحفاظ عليها عن قصد.
1. ضع “كتل الإجابة” في المنتصف، وليس النثر المتصل
تحتوي معظم المقالات الطويلة على وسط ناعم ومتجول حيث يبني المؤلف الفروق الدقيقة ويضيف الألوان ويحاول أن يكون شاملاً. يمكن للبشر أن يتبعوا ذلك. من المرجح أن تفقد النماذج الخيط هناك. بدلًا من ذلك، اجعل الوسط عبارة عن سلسلة من الكتل القصيرة حيث يمكن لكل كتلة أن تقف بمفردها.
كتلة الإجابة لديها:
مطالبة واضحة. قيد. تفصيل داعم. تأثير مباشر.
إذا لم تتمكن الكتلة من النجاة من الاقتباس من تلقاء نفسها، فإنها لن تنجو من الضغط. هذه هي الطريقة التي تجعل بها الوسط “صعب التلخيص بشكل سيء”.
2. أعد إدخال الموضوع في منتصف الطريق
يحدث الانجراف غالبًا لأن النموذج يتوقف عن رؤية نقاط الارتساء المتسقة.
في منتصف الطريق، أضف “إعادة مفتاح” قصيرة تعيد صياغة الأطروحة بكلمات واضحة، وتعيد صياغة الكيانات الرئيسية، وتعيد صياغة معايير القرار. غالبًا ما تكون جملتان إلى أربع جمل كافية هنا. فكر في هذا كتحكم في استمرارية النموذج.
كما أنه يساعد أنظمة الضغط. عندما تعيد ذكر ما يهم، فإنك تخبر الضاغط بما لا يجب التخلص منه.
3. احتفظ بالدليل المحلي للمطالبة
تعمل النماذج والضواغط بشكل أفضل عندما تكون التفاصيل الداعمة قريبة من العبارة التي تدعمها.
إذا كانت مطالبتك في الفقرة 14، والدليل في الفقرة 37، فغالبًا ما يقوم الضاغط باختزال الوسط إلى ملخص يسقط الرابط بينهما. ثم يملأ النموذج هذه الفجوة بأفضل تخمين.
يبدو الدليل المحلي كما يلي:
المطالبة، ثم الرقم أو التاريخ أو التعريف أو الاقتباس هناك. إذا كنت بحاجة إلى شرح أطول، فافعل ذلك بعد تثبيت المطالبة.
وهذه أيضًا هي الطريقة التي يصبح بها الاستشهاد أسهل. من الصعب الاستشهاد بادعاء يتطلب دمج السياق من أقسام متعددة.
4. استخدم تسمية متسقة للكائنات الأساسية
هذا أمر هادئ، لكنه مهم للغاية. إذا قمت بإعادة تسمية الشيء نفسه خمس مرات من أجل الأسلوب، يومئ البشر برأسهم، لكن العارضات يمكن أن ينجرفن.
اختر مصطلحًا للشيء الأساسي وحافظ على اتساقه طوال الوقت. يمكنك إضافة مرادفات للبشر، مع الحفاظ على ثبات التسمية الأساسية. عندما تقوم الأنظمة باستخراج أو ضغط، تصبح التسميات الثابتة مقابض. تصبح التسميات غير المستقرة ضبابًا.
5. تعامل مع “المخرجات المنظمة” كدليل على كيفية تفضيل الآلات لاستهلاك المعلومات
الاتجاه الكبير في أدوات LLM هو المخرجات المنظمة وفك التشفير المقيد. النقطة المهمة ليست أن مقالتك يجب أن تكون JSON. النقطة المهمة هي أن النظام البيئي يتجه نحو الاستخراج القابل للتحليل الآلي. يخبرك هذا الاتجاه بشيء مهم: الآلات تريد الحقائق بأشكال يمكن التنبؤ بها.
لذلك، في منتصف مقالتك، قم بتضمين على الأقل بعض الأشكال التي يمكن التنبؤ بها:
التعاريف. تسلسلات الخطوة. قوائم المعايير. مقارنات مع سمات ثابتة. الكيانات المسماة مرتبطة بمطالبات محددة.
افعل ذلك، وسيصبح استخراج المحتوى الخاص بك أسهل، وأسهل للضغط بأمان، وأسهل لإعادة الاستخدام بشكل صحيح.
كيف يظهر هذا في عمل تحسين محركات البحث الحقيقي
هذه هي نقطة التقاطع. إذا كنت أحد كبار المسئولين الاقتصاديين (SEO) أو عميل محتمل للمحتوى، فأنت لا تقوم بتحسين “النموذج”. أنت تقوم بتحسين الأنظمة التي تقوم بالاسترداد والضغط والتركيب.
ستبدو أعراضك المرئية كما يلي:
- تمت إعادة صياغة مقالتك بشكل صحيح في الأعلى، ولكن تم تحريف المفهوم الأوسط. هذا هو الضياع في المنتصف بالإضافة إلى الضغط.
- يتم ذكر علامتك التجارية، لكن الأدلة الداعمة الخاصة بك لا يتم تطبيقها في الإجابة. هذا دليل فشل محلي. لا يمكن للنموذج أن يبرر الاستشهاد بك، لذا فهو يستخدمك كلون للخلفية.
- تصبح الأقسام الوسطى الدقيقة عامة. هذا هو الضغط، وتحويل الفروق الدقيقة إلى ملخص لطيف، ثم يتعامل النموذج مع هذا الملخص على أنه الوسط “الحقيقي”.
- إن حركتك “تقصير الوسط” هي الطريقة التي تقلل بها معدلات الفشل هذه. ليس عن طريق خفض القيمة، ولكن عن طريق تشديد هندسة المعلومات.
طريقة بسيطة لتحرير البقاء الأوسط
إليك سير عمل نظيف مكون من خمس خطوات يمكنك تطبيقه على أي قطعة طويلة، وهو تسلسل يمكنك تنفيذه خلال ساعة أو أقل.
- حدد نقطة المنتصف واقرأ الثلث الأوسط فقط. وإذا لم يمكن تلخيص الثلث الأوسط في جملتين دون أن يفقد معناه، فهو شديد الليونة.
- أضف فقرة إعادة مفتاح واحدة في بداية الثلث الأوسط. أعد صياغة: المطالبة الرئيسية، والحدود، و”وماذا في ذلك”. اجعلها قصيرة.
- قم بتحويل الثلث الأوسط إلى أربع إلى ثماني كتل إجابة. يجب أن تكون كل كتلة قابلة للاقتباس. يجب أن تتضمن كل كتلة القيد الخاص بها وتفاصيل داعمة واحدة على الأقل.
- انقل الدليل بجوار المطالبة. إذا كان الإثبات بعيدًا، فاسحب عنصر الإثبات المدمج إلى أعلى. رقم، تعريف، مرجع المصدر. يمكنك الاحتفاظ بالشرح الأطول لاحقًا.
- استقرار التسميات. اختر اسمًا للكيانات الرئيسية الخاصة بك والتزم بها في المنتصف.
إذا كنت تريد تبريرًا غريبًا لسبب نجاح ذلك، فذلك لأنك تصمم لكلا وضعي الفشل الموثقين أعلاه: حساسية الموضع “المفقودة في المنتصف” التي تم قياسها في دراسات السياق الطويل، وحقيقة أن أنظمة الإنتاج تضغط السياق وتطويه للحفاظ على استقرار الوكلاء وسير العمل.
التفاف
نوافذ السياق الأكبر لا تنقذك. يمكن أن تجعل مشكلتك أسوأ، لأن المحتوى الطويل يدعو إلى المزيد من الضغط، والضغط يدعو إلى المزيد من الخسارة في المنتصف.
لذا نعم، استمر في الكتابة الطويلة عندما يكون ذلك مبررًا، لكن توقف عن التعامل مع الوسط كمكان للتجول. تعامل معه مثل مدى حمل الجسر. ضع أقوى العوارض هناك، وليس أجمل الزخارف.
هذه هي الطريقة التي تبني بها محتوى ينجو من القراءة البشرية وإعادة استخدام الآلة، دون تحويل كتابتك إلى وثائق عقيمة.
المزيد من الموارد:
تم نشر هذا المنشور في الأصل على Duane Forrester Decodes.
صورة مميزة: كولاجي / شترستوك
Source link



