علم كيفية اهتمام الذكاء الاصطناعي

عزز مهاراتك من خلال رؤى الخبراء الأسبوعية في مذكرة النمو. اشترك مجانا!
أشارك هذا الأسبوع النتائج التي توصلت إليها من تحليل 1.2 مليون رد على ChatGPT للإجابة على سؤال حول كيفية تحسين فرصك في الحصول على الاستشهادات.
على مدار 20 عامًا، كتب مُحسنو محركات البحث “أدلة نهائية” مصممة لإبقاء الأشخاص على الصفحة. نكتب مقدمات طويلة. نقوم بسحب الأفكار طوال المسودة وحتى النهاية. نحن نبني التشويق للدعوة النهائية للعمل.
تظهر البيانات أن هذا النمط من الكتابة ليس مثاليًا لرؤية الذكاء الاصطناعي.
بعد تحليل 1.2 مليون من استشهادات ChatGPT التي تم التحقق منها، وجدت نمطًا متسقًا للغاية حيث تبلغ القيمة P 0.0: “منحدر التزلج”. يولي ChatGPT اهتمامًا غير متناسب لأفضل 30% من المحتوى الخاص بك. علاوة على ذلك، وجدت خمس خصائص واضحة للمحتوى الذي يتم الاستشهاد به. لكي تفوز في عصر الذكاء الاصطناعي، عليك أن تبدأ الكتابة مثل الصحفي.
1. ما هي أقسام النص التي من المرجح أن يتم الاستشهاد بها بواسطة ChatGPT؟

لا يوجد الكثير من المعلومات حول أجزاء النص التي يستشهد بها طلاب ماجستير القانون. قمنا بتحليل 18012 استشهادًا ووجدنا توزيعًا لـ “منحدر التزلج”.
- 44.2% من جميع الاستشهادات تأتي من أول 30% من النص (المقدمة). يقرأ الذكاء الاصطناعي مثل الصحفي. إنه يلتقط “من وماذا وأين” من الأعلى. إذا كانت رؤيتك الرئيسية موجودة في المقدمة، فإن فرص الاستشهاد بها تكون عالية.
- 31.1% من الاستشهادات تأتي من 30-70% من النص (الوسط). إذا قمت بدفن ميزات منتجك الرئيسية في الفقرة 12 من منشور مكون من 20 فقرة، فمن المرجح أن يستشهد بها الذكاء الاصطناعي بنسبة 2.5 مرة.
- 24.7% من الاستشهادات تأتي من الثلث الأخير من المقالة (الخاتمة). إنه يثبت أن الذكاء الاصطناعي يستيقظ في النهاية (مثل البشر إلى حد كبير). إنه يتخطى الفعلي تذييل (راجع نسبة الانخفاض 90-100%)، ولكنه يحب قسم “الملخص” أو “الاستنتاج” الموجود قبل التذييل مباشرة.
التفسيرات المحتملة لنمط منحدر التزلج هي التدريب والكفاءة:
- يتم تدريب LLMs على الصحافة والأوراق الأكاديمية، التي تتبع هيكل “BLUF” (الخط السفلي في المقدمة). يتعلم النموذج أن المعلومات “المرجحة” تكون دائمًا في الأعلى.
- في حين أن النماذج الحديثة يمكنها قراءة ما يصل إلى مليون رمز مميز للتفاعل الواحد (حوالي 700000 إلى 800000 كلمة)، فإنها تهدف إلى إنشاء الإطار في أسرع وقت ممكن، ثم تفسير كل شيء آخر من خلال هذا الإطار.

18000 من أصل 1.2 مليون استشهاد تمنحنا كل الرؤية التي نحتاجها. القيمة P لهذا التحليل هي 0.0، مما يعني أنها غير قابلة للجدل إحصائيًا. لقد قمت بتقسيم البيانات إلى دفعات (تقسيمات التحقق العشوائية) لإثبات استقرار النتائج.
- كانت الدفعة 1 أكثر تملقًا قليلاً، لكن الدُفعات 2 و3 و4 متطابقة تقريبًا.
- الاستنتاج: نظرًا لأن الدُفعات 2 و3 و4 مقفلة على نفس النمط تمامًا، فإن البيانات مستقرة عبر جميع الاستشهادات البالغ عددها 1.2 مليون.
في حين أن هذه الدفعات تؤكد الاستقرار على المستوى الكلي حيث يبحث ChatGPT عبر المستند، فإنها تثير سؤالًا جديدًا حول سلوكه الدقيق: هل يستمر هذا التحيز الثقيل حتى داخل كتلة واحدة من النص، أم أن تركيز الذكاء الاصطناعي يتغير عندما يقرأ بشكل أكثر عمقًا؟ بعد أن تأكدت من أن البيانات لا جدال فيها إحصائيًا على نطاق واسع، أردت “تكبير” مستوى الفقرة.

يُظهر التحليل العميق لـ 1000 جزء من المحتوى مع عدد كبير من الاستشهادات أن 53% من الاستشهادات تأتي من منتصف الفقرة. فقط 24.5% تأتي من الجملة الأولى و 22.5% من الجملة الأخيرة من الفقرة. ChatGPT ليس “كسولًا” ويقرأ فقط الجملة الأولى من كل فقرة. يقرأ بعمق.
الوجبات الجاهزة: لا تحتاج إلى فرض الإجابة في الجملة الأولى من كل فقرة. يبحث ChatGPT عن الجملة التي تتمتع بأعلى “اكتساب معلومات” (الاستخدام الأكثر اكتمالًا للكيانات ذات الصلة والمعلومات الإضافية والواسعة)، بغض النظر عما إذا كانت هذه الجملة هي الأولى أو الثانية أو الخامسة في الفقرة. بالاشتراك مع نمط منحدر التزلج، يمكننا أن نستنتج أن أعلى فرص الاستشهادات تأتي من الفقرات الموجودة في أول 20٪ من الصفحة.
2. ما الذي يجعل ChatGPT أكثر عرضة للاستشهاد بالأجزاء؟
نحن نعلم أين في المحتوى الذي يحب ChatGPT الاستشهاد منه، ولكن ما هي الخصائص التي تؤثر على احتمالية الاقتباس؟
يظهر التحليل خمس خصائص فائزة:
- لغة نهائية.
- هيكل الأسئلة والأجوبة المحادثة.
- ثراء الكيان
- مشاعر متوازنة.
- كتابة بسيطة.
1. نهائي مقابل. لغة غامضة

من المرجح أن يحتوي الفائزون بالاستشهادات على لغة محددة بنسبة 2x تقريبًا (36.2% مقابل 20.2%) (“يتم تعريفه على أنه” “يشير إلى”). لا يجب أن يكون الاقتباس اللغوي تعريفًا حرفيًا، ولكن يجب أن تكون العلاقات بين المفاهيم واضحة.
التفسيرات المحتملة لتأثير الكتابة التصريحية المباشرة:
- في قاعدة بيانات المتجهات، تعمل الكلمة “هو” كجسر قوي يربط الموضوع بتعريفه. عندما يسأل المستخدم “ما هو X؟” يبحث النموذج عن أقوى مسار متجه، والذي يكون دائمًا تقريبًا بنية جملة مباشرة “X is Y”.
- يحاول النموذج الرد على المستخدم على الفور. إنها تفضل النص الذي يسمح لها بحل الاستعلام في جملة واحدة (Zero-Shot) بدلاً من تجميع إجابة من خمس فقرات.
الوجبات الجاهزة: ابدأ مقالاتك ببيان مباشر.
- سيء: “في هذا العالم سريع الخطى، أصبحت الأتمتة أمرًا أساسيًا…”
- جيد: “أتمتة العرض التوضيحي هي عملية استخدام البرامج من أجل…”
2. الكتابة التحادثية

من المرجح أن يحتوي النص الذي يتم الاستشهاد به على علامة استفهام بمقدار 2x (18% مقابل 8.9%). عندما نتحدث عن الكتابة التحادثية، فإننا نعني التفاعل بين الأسئلة والأجوبة.
ابدأ باستعلام المستخدم كسؤال، ثم قم بالإجابة عليه فورًا. على سبيل المثال:
- نمط الفائز: “ما هو تحسين محركات البحث الآلي؟ إنه…”
- أسلوب الخاسر: “في هذه المقالة، سنناقش الفروق الدقيقة المختلفة في …”
78.4% من الاستشهادات التي تحتوي على أسئلة تأتي من العناوين. يتعامل الذكاء الاصطناعي مع علامة H2 الخاصة بك على أنها مطالبة المستخدم والفقرة التي تليها مباشرة على أنها الاستجابة التي تم إنشاؤها.
مثال على هيكل الخاسر:
مثال على هيكل الفائز (78%):
-
متى بدأ تحسين محركات البحث؟
(الاستعلام الحرفي)
-
بدأ تحسين محركات البحث (SEO) في…
(إجابة مباشرة)
السبب وراء فوز مثال محدد هو ما أسميه “صدى الكيان”: يسأل الرأس عن تحسين محركات البحث، والكلمة الأولى من الإجابة هي تحسين محركات البحث.
3. ثراء الكيان

يحتوي النص الإنجليزي العادي على “كثافة كيانية” (أي تحتوي على أسماء علم مثل العلامات التجارية والأدوات والأشخاص) تبلغ حوالي 5-8%. النص الذي تم الاستشهاد به بشكل كبير له كثافة كيان تبلغ 20.6٪!
- الرقم 5-8% هو معيار لغوي مشتق من مجموعة قياسية مثل Brown Corpus (مليون كلمة من نص إنجليزي تمثيلي) وPenn Treebank (وول ستريت جورنال نص).
مثال:
- الجملة الخاسرة: “هناك العديد من الأدوات الجيدة لهذه المهمة.” (0% كثافة)
- الجملة الفائزة: “تشمل أفضل الأدوات Salesforce وHubSpot وPipedrive.” (30% كثافة)
LLMs احتمالية. تعتبر النصيحة العامة (“اختر أداة جيدة”) محفوفة بالمخاطر وغامضة، ولكن هناك كيان محدد (“اختر Salesforce”) له أساس وقابل للتحقق. يعطي النموذج الأولوية للجمل التي تحتوي على “المثبتات” (الكيانات) لأنها تقلل من الحيرة (الارتباك) في الإجابة.
الجملة التي تحتوي على ثلاثة كيانات تحمل “بتات” من المعلومات أكثر من الجملة التي لا تحتوي على أي كيان. لذا، لا تخف من إسقاط الأسماء (نعم، حتى منافسيك).
4. المشاعر المتوازنة

في تحليلي، حصل النص المستشهد به على درجة ذاتية متوازنة قدرها 0.47. درجة الذاتية هي مقياس قياسي في معالجة اللغة الطبيعية (NLP) يقيس مقدار الرأي الشخصي أو العاطفة أو الحكم في جزء من النص.
يتم تشغيل النتيجة على مقياس من 0.0 إلى 1.0:
- 0.0 (موضوعية خالصة): يحتوي النص على حقائق يمكن التحقق منها فقط. لا صفات ولا مشاعر. مثال: “تم إصدار iPhone 15 في سبتمبر 2023.”
- 1.0 (الذاتية الخالصة): يحتوي النص فقط على آراء شخصية أو عواطف أو أوصاف مكثفة. على سبيل المثال: “يعد iPhone 15 تحفة فنية مذهلة أحبها.”
الذكاء الاصطناعي لا يريد نص ويكيبيديا جافًا (0.1)، ولا يريد رأيًا مضطربًا (0.9). إنها تريد “صوت المحلل”. ويفضل الجمل التي تشرح كيف تنطبق الحقيقة، بدلاً من مجرد ذكر الإحصائيات وحدها.
تبدو نغمة “الفائز” هكذا (النتيجة ~0.5): “بينما يتميز iPhone 15 بشريحة A16 القياسية (حقيقة)، فإن أدائه في التصوير الفوتوغرافي منخفض الإضاءة يجعله خيارًا ممتازًا لمنشئي المحتوى (تحليل/رأي).“
5. الكتابة على مستوى الأعمال

الكتابة على مستوى الأعمال (فكر الإيكونوميست أو هارفارد بزنس ريفيو) يحصل على المزيد من الاستشهادات. حصل “الفائزون” على درجة Flesch-Kincaid تبلغ 16 (مستوى الكلية) مقارنة بـ “الخاسرين” الذين حصلوا على 19.1 (المستوى الأكاديمي/الدكتوراه).
حتى بالنسبة للموضوعات المعقدة، يمكن أن يكون التعقيد مؤلمًا. تعني درجة الصف 19 أن الجمل طويلة ومتعرجة ومليئة بالمصطلحات متعددة المقاطع. يفضل الذكاء الاصطناعي هياكل الفاعل والفعل والمفعول البسيطة مع جمل قصيرة إلى متوسطة الطول، لأنها أسهل في استخلاص الحقائق منها.
خاتمة
يحدد نمط “منحدر التزلج” عدم التوافق بين الكتابة السردية واسترجاع المعلومات. تفسر الخوارزمية الكشف البطيء على أنه انعدام للثقة. ويعطي الأولوية للتصنيف الفوري للكيانات والحقائق.
يعمل المحتوى عالي الوضوح وكأنه ملخص منظم أكثر من كونه قصة.
وهذا يفرض “ضريبة الوضوح” على الكاتب. يعتمد الفائزون في مجموعة البيانات هذه على مفردات على مستوى الأعمال وكثافة عالية للكيانات، مما يدحض النظرية القائلة بأن الذكاء الاصطناعي يكافئ المحتوى “البسيط” (مع استثناءات).
نحن لا نكتب الروبوتات فقط… حتى الآن. لكن الفجوة بين التفضيلات البشرية والقيود التي تفرضها الآلات بدأت تتقلص. في الكتابة التجارية، يقوم البشر بالبحث عن الأفكار. من خلال تحميل الاستنتاج في المقدمة، فإننا نلبي بنية الخوارزمية وندرة الوقت لدى القارئ البشري.
المنهجية
لفهم بالضبط أين و لماذا يستشهد الذكاء الاصطناعي بالمحتوى، وقمنا بتحليل الكود.
جميع البيانات الواردة في هذا البحث تأتي من Gauge.
- قدم Gauge ما يقرب من 3 ملايين إجابة مدعومة بالذكاء الاصطناعي من ChatGPT، إلى جانب 30 مليون استشهاد. تم استخلاص محتوى الويب الخاص بكل عنوان URL للاقتباس في وقت الإجابة لتوفير ارتباط مباشر بين محتوى الويب الحقيقي والإجابة نفسها. تم حذف كل من HTML الخام والنص العادي.
1. مجموعة البيانات
لقد بدأنا بعالم يضم 1.2 مليون نتيجة بحث وإجابات تم إنشاؤها بواسطة الذكاء الاصطناعي. ومن هذا، قمنا بعزل 18012 استشهادًا تم التحقق منه للتحليل الموضعي و11022 استشهادًا لتحليل “الحمض النووي اللغوي”.
- دلالة: حجم العينة هذا كبير بما يكفي لإنتاج قيمة P تبلغ 0.0 (ع <0.0001)، مما يعني أن الأنماط التي وجدناها لا جدال فيها إحصائيًا.
2. محرك “الحصادة”.
للعثور على الجملة التي يقتبسها الذكاء الاصطناعي بالضبط، استخدمنا التضمين الدلالي (نهج الشبكة العصبية).
- النموذج: استخدمنا all-MiniLM-L6-v2، وهو نموذج لتحويل الجملة يفهم المعنى، وليس الكلمات الرئيسية فقط.
- العملية: لقد قمنا بتحويل كل إجابة من الذكاء الاصطناعي وكل جملة من النص المصدر إلى متجهات ذات 384 بُعدًا. ثم قمنا بمطابقتها باستخدام تشابه جيب التمام.
- الفلتر: لقد طبقنا عتبة تشابه صارمة (0.55) للتخلص من التطابقات الضعيفة أو الهلوسة، مما يضمن أننا قمنا فقط بتحليل الاستشهادات عالية الثقة.
3. المقاييس
بمجرد العثور على التطابق التام، قمنا بقياس شيئين:
- العمق الموضعي: لقد حسبنا بالضبط مكان ظهور النص المقتبس في HTML (على سبيل المثال، عند علامة 10% مقابل علامة 90%).
- الحمض النووي اللغوي: قمنا بمقارنة “الفائزين” (المقدمات المستشهد بها) و”الخاسرين” (المقدمات التي تم تخطيها) باستخدام معالجة اللغات الطبيعية (NLP) لقياس:
- معدل التعريف: وجود الأفعال النهائية (هو، هي، يشير إلى).
- كثافة الكيان: تكرار الأسماء الصحيحة (العلامات التجارية، الأدوات، الأشخاص).
- الذاتية: درجة المشاعر من 0.0 (حقيقة) إلى 1.0 (رأي).
صورة مميزة: شعر بول / مجلة محرك البحث
Source link



