محركات البحث

برنامج OpenAI Search Crawler يجتاز تغطية بنسبة 55% في دراسة Hostinger

قام Hostinger بتحليل 66 مليار طلب روبوت عبر أكثر من 5 ملايين موقع ويب، ووجد أن برامج زحف الذكاء الاصطناعي تتبع مسارين مختلفين.

تفقد روبوتات تدريب LLM إمكانية الوصول إلى الويب نظرًا لأن المزيد من المواقع تمنعها. وفي الوقت نفسه، تعمل روبوتات الذكاء الاصطناعي المساعدة التي تدعم أدوات البحث مثل ChatGPT على توسيع نطاق وصولها.

يعتمد التحليل على سجلات خادم مجهولة المصدر من ثلاث نوافذ مدتها 6 أيام، مع تعيين تصنيف الروبوتات إلى تصنيفات مشروع AI.txt.

يتم حظر روبوتات التدريب

الاكتشاف الأكثر وضوحًا يتعلق بـGPTBot الخاص بشركة OpenAI، والذي يجمع البيانات للتدريب النموذجي. انخفضت تغطية موقعها الإلكتروني من 84% إلى 12% خلال فترة الدراسة.

كان Meta’s ExternalAgent أكبر زاحف لفئة التدريب من حيث حجم الطلب في بيانات Hostinger. يقول Hostinger إن مجموعة الروبوتات التدريبية هذه تظهر أقوى الانخفاضات بشكل عام، ويرجع ذلك جزئيًا إلى المواقع التي تحظر برامج زحف تدريب الذكاء الاصطناعي.

تتوافق هذه الأرقام مع الأنماط التي تتبعتها من خلال دراسات متعددة. وجدت BuzzStream أن 79% من كبار ناشري الأخبار يحظرون الآن روبوتًا تدريبيًا واحدًا على الأقل. أظهرت المراجعة السنوية لـ Cloudflare أن GTBot وClaudeBot وCCBot لديهم أكبر عدد من توجيهات عدم السماح الكاملة عبر النطاقات العليا.

تحدد البيانات ما اقترحته تلك الدراسات. يفسر Hostinger الانخفاض في تغطية روبوتات التدريب كإشارة إلى أن المزيد من المواقع تحظر برامج الزحف هذه، حتى عندما تظل أحجام الطلبات مرتفعة.

الروبوتات المساعدة تحكي قصة مختلفة

بينما تواجه روبوتات التدريب مقاومة، تعمل الروبوتات التي تدعم أدوات البحث بالذكاء الاصطناعي على توسيع نطاق الوصول.

وصل OAI-SearchBot الخاص بـ OpenAI، والذي يجلب المحتوى لميزة البحث في ChatGPT، إلى متوسط ​​تغطية بلغ 55.67%. نما روبوت TikTok إلى تغطية 25.67% مع 1.4 مليار طلب. وصل روبوت أبل إلى نسبة تغطية 24.33%.

يتم تشغيل عمليات الزحف المساعدة هذه بواسطة المستخدم وتكون أكثر استهدافًا. فهي تخدم المستخدمين بشكل مباشر بدلاً من جمع بيانات التدريب، وهو ما قد يفسر سبب تعامل المواقع معهم بشكل مختلف.

البحث الكلاسيكي لا يزال مستقرا

ظلت برامج زحف محركات البحث التقليدية ثابتة طوال فترة الدراسة. حافظ Googlebot على تغطية متوسطة بنسبة 72% مع 14.7 مليار طلب. بقي Bingbot عند تغطية 57.67%.

يتناقض الاستقرار مع التغييرات في فئة الذكاء الاصطناعي. يواجه الزاحف الرئيسي في Google موقعًا فريدًا نظرًا لأن حظره يؤثر على إمكانية رؤية البحث.

تظهر أدوات تحسين محركات البحث (SEO) الرفض

شهدت برامج زحف تحسين محركات البحث والتسويق انخفاضًا في التغطية. حافظت Ahrefs على أكبر بصمة بتغطية 60%، لكن الفئة تقلصت بشكل عام. يعزو Hostinger ذلك إلى عاملين. تركز هذه الأدوات بشكل متزايد على المواقع التي تعمل بنشاط على تحسين محركات البحث. ويقوم مالكو مواقع الويب بحظر برامج الزحف كثيفة الاستخدام للموارد.

لقد أبلغت عن المخاوف المتعلقة بالموارد عندما أظهرت بيانات Vercel أن GTBot يولد 569 مليون طلب في شهر واحد. بالنسبة لبعض الناشرين، أصبحت تكاليف النطاق الترددي مشكلة عمل.

لماذا هذا مهم؟

تؤكد البيانات النمط الذي تم بناءه خلال العام الماضي. يقوم مشغلو الموقع برسم خط بين برامج زحف الذكاء الاصطناعي التي سيسمحون بها وتلك التي لن يسمحوا بها.

القرار يعود إلى العمل. تقوم روبوتات التدريب بجمع المحتوى لتحسين النماذج دون إرسال حركة المرور مرة أخرى. تجلب الروبوتات المساعدة المحتوى للإجابة على أسئلة محددة للمستخدم، مما يعني أنه يمكنها عرض المحتوى الخاص بك في نتائج بحث الذكاء الاصطناعي.

يقترح Hostinger طريقًا وسطًا: حظر روبوتات التدريب مع السماح للروبوتات المساعدة التي تدفع الاكتشاف. يتيح لك ذلك المشاركة في بحث الذكاء الاصطناعي دون المساهمة في التدريب النموذجي.

التطلع إلى الأمام

توصي OpenAI بالسماح لـ OAI-SearchBot إذا كنت تريد أن يظهر موقعك في نتائج بحث ChatGPT، حتى لو قمت بحظر GPTBot.

توضح وثائق OpenAI الفرق. يتحكم OAI-SearchBot في التضمين في نتائج بحث ChatGPT ويحترم ملف robots.txt. يتعامل ChatGPT-User مع التصفح الذي يبدأه المستخدم وقد لا يخضع لملف robots.txt بنفس الطريقة.

يوصي Hostinger بالتحقق من سجلات الخادم لمعرفة ما يصل إلى موقعك بالفعل، ثم اتخاذ قرارات الحظر بناءً على أهدافك. إذا كنت قلقًا بشأن تحميل الخادم، فيمكنك استخدام الحظر على مستوى CDN. إذا كنت تريد أن يحتمل قم بزيادة رؤية الذكاء الاصطناعي الخاص بك، وقم بمراجعة وكلاء مستخدم زاحف الذكاء الاصطناعي الحاليين والسماح فقط للروبوتات المحددة التي تدعم استراتيجية.


صورة مميزة: BestForBest/Shutterstock


Source link

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى