تشرح Microsoft كيف يؤثر المحتوى المكرر على رؤية بحث الذكاء الاصطناعي

شاركت Microsoft إرشادات جديدة بشأن المحتوى المكرر الذي يستهدف البحث المدعوم بالذكاء الاصطناعي.
يناقش المنشور الموجود على مدونة Bing Webmaster عنوان URL الذي يعمل بمثابة “الصفحة المصدر” لإجابات الذكاء الاصطناعي عند وجود عدة عناوين URL مماثلة.
تصف Microsoft كيف يمكن تجميع الصفحات “شبه المكررة” معًا لأنظمة الذكاء الاصطناعي، وكيف يمكن أن يؤثر هذا التجميع على عنوان URL الذي يتم سحبه إلى ملخصات الذكاء الاصطناعي.
كيف تتعامل أنظمة الذكاء الاصطناعي مع التكرارات
كتب فابريس كانيل وكريشنا مادهافان، مديري المنتجات الرئيسيين في Microsoft AI:
“تقوم LLMs بتجميع عناوين URL شبه المكررة في مجموعة واحدة ثم تختار صفحة واحدة لتمثيل المجموعة. إذا كانت الاختلافات بين الصفحات ضئيلة، فقد يحدد النموذج إصدارًا قديمًا أو ليس الإصدار الذي كنت تنوي تسليط الضوء عليه.”
إذا كانت هناك صفحات متعددة قابلة للتبديل، فقد تكون الصفحة التمثيلية عبارة عن عنوان URL لحملة قديمة، أو إصدار معلمة، أو صفحة إقليمية لم تقصد الترويج لها.
تلاحظ Microsoft أيضًا أن العديد من تجارب LLM ترتكز على فهارس البحث. إذا كان الفهرس مشوشًا بسبب التكرارات، فإن هذا الغموض نفسه يمكن أن يظهر في نهاية إجابات الذكاء الاصطناعي.
كيف يمكن للنسخ المكررة أن تقلل من رؤية الذكاء الاصطناعي
تضع Microsoft عدة طرق يمكن أن يعيق بها التكرار الطريق.
واحد هو وضوح النية. إذا كانت هناك صفحات متعددة تغطي نفس الموضوع بنسخة وعناوين وبيانات تعريف متطابقة تقريبًا، فمن الصعب معرفة عنوان URL الذي يناسب الاستعلام بشكل أفضل. حتى عندما تتم فهرسة الصفحة “اليمنى”، يتم تقسيم الإشارات عبر المتشابهات.
آخر هو التمثيل. إذا تم تجميع الصفحات، فأنت تتنافس بشكل فعال مع نفسك على الإصدار الذي يمثل المجموعة.
ترسم Microsoft أيضًا خطًا بين تمايز الصفحات الحقيقية والمتغيرات التجميلية. يمكن أن يكون لمجموعة من الصفحات معنى عندما تلبي كل واحدة منها حاجة معينة. ولكن عندما تختلف الصفحات من خلال تعديلات طفيفة فقط، فقد لا تحمل إشارات فريدة كافية لأنظمة الذكاء الاصطناعي للتعامل معها كمرشحات منفصلة.
أخيرًا، تقوم Microsoft بربط النسخ المكررة لتأخر التحديث. إذا كانت برامج الزحف تقضي وقتًا في إعادة زيارة عناوين URL المتكررة، فقد تستغرق التغييرات التي يتم إجراؤها على الصفحة التي تهتم بها بالفعل وقتًا أطول لتظهر في الأنظمة التي تعتمد على إشارات الفهرس الجديدة.
متعلق ب: قد يرى Google صفحات الويب كنسخ مكررة إذا كانت عناوين URL متشابهة جدًا
فئات المحتوى المكرر وأبرز أحداث Microsoft
يستدعي التوجيه عددًا قليلًا من مرتكبي الجرائم المتكررة.
النقابة واحدة. عندما تظهر نفس المقالة عبر المواقع، فإن النسخ المتطابقة يمكن أن تجعل من الصعب التعرف على الأصل. توصي Microsoft بمطالبة الشركاء باستخدام العلامات الأساسية التي تشير إلى عنوان URL الأصلي واستخدام مقتطفات بدلاً من النسخ المعاد طباعتها بالكامل عندما يكون ذلك ممكنًا.
صفحات الحملة هي شيء آخر. إذا كنت تقوم بتدوير إصدارات متعددة تستهدف نفس الغرض وتختلف قليلاً فقط، توصي Microsoft باختيار صفحة أساسية تجمع الروابط والمشاركة، ثم استخدام العلامات الأساسية للمتغيرات ودمج الصفحات القديمة التي لم تعد تخدم غرضًا مميزًا.
يأتي التوطين بنفس الطريقة. يمكن أن تبدو الصفحات الإقليمية المتطابقة تقريبًا وكأنها نسخ مكررة ما لم تتضمن اختلافات ذات معنى. تقترح Microsoft الترجمة باستخدام التغييرات المهمة بالفعل، مثل المصطلحات أو الأمثلة أو اللوائح أو تفاصيل المنتج.
ثم هناك التكرارات الفنية. يسرد الدليل الأسباب الشائعة مثل معلمات URL، وإصدارات HTTP وHTTPS، وعناوين URL الكبيرة والصغيرة، والشرطة المائلة اللاحقة، والإصدارات الملائمة للطباعة، والصفحات المرحلية التي يمكن الوصول إليها بشكل عام.
أنظر أيضا: تشرح Microsoft كيفية تحسين المحتوى من أجل رؤية بحث الذكاء الاصطناعي
دور الفهرس الآن
تشير Microsoft إلى IndexNow كوسيلة لتقصير دورة التنظيف بعد دمج عناوين URL.
عند دمج الصفحات، أو تغيير العناوين الأساسية، أو إزالة التكرارات، يمكن أن يساعد IndexNow محركات البحث المشاركة على اكتشاف هذه التغييرات في وقت أقرب. تربط Microsoft هذا الاكتشاف الأسرع بعدد أقل من عناوين URL القديمة العالقة في النتائج، وعدد أقل من الحالات التي تصبح فيها النسخة المكررة القديمة هي الصفحة المستخدمة في إجابات الذكاء الاصطناعي.
مايكروسوفت المبدأ الأساسي
كتب كانيل ومادهافان:
“عندما تقلل الصفحات المتداخلة وتسمح لنسخة واحدة موثوقة بحمل إشاراتك، يمكن لمحركات البحث أن تفهم نيتك بثقة أكبر وتختار عنوان URL المناسب لتمثيل المحتوى الخاص بك.”
الرسالة هي التوحيد أولاً، والإشارات الفنية ثانيًا. تساعد العناصر الأساسية وعمليات إعادة التوجيه وhreflang وIndexNow، ولكنها تعمل بشكل أفضل عندما لا تحتفظ بسلسلة طويلة من الصفحات شبه المتطابقة.
لماذا هذا مهم؟
المحتوى المكرر لا يشكل عقوبة في حد ذاته. الجانب السلبي هو ضعف الرؤية عندما تكون الإشارات مخففة، وتكون النية غير واضحة.
يمكن للمقالات المشتركة أن تستمر في التفوق على الأصل إذا كانت المبادئ الأساسية مفقودة أو غير متسقة. يمكن لمتغيرات الحملة أن تفكك بعضها البعض إذا كانت “الاختلافات” تجميلية في الغالب. يمكن أن تمتزج الصفحات الإقليمية معًا إذا لم تخدم بشكل واضح الاحتياجات المختلفة.
يمكن أن تساعدك عمليات التدقيق الروتينية في اكتشاف التداخل مبكرًا. تشير Microsoft إلى أدوات مشرفي المواقع Bing كوسيلة لاكتشاف الأنماط مثل العناوين المتطابقة ومؤشرات التكرار الأخرى.
التطلع إلى الأمام
نظرًا لأن إجابات الذكاء الاصطناعي أصبحت نقطة دخول أكثر شيوعًا، أصبح من الصعب تجاهل مشكلة “عنوان URL الذي يمثل هذا الموضوع”.
يمكن أن يؤثر تنظيف النسخ المكررة تقريبًا على إصدار المحتوى الخاص بك الذي سيتم عرضه عندما يحتاج نظام الذكاء الاصطناعي إلى صفحة واحدة لتأسيس إجابة.
Source link



