محركات البحث

يكتشف اختراق نظام التوصية من Google النية الدلالية

نشرت Google ورقة بحثية حول مساعدة أنظمة التوصية على فهم ما يعنيه المستخدمون عندما يتفاعلون معهم. هدفهم من هذا النهج الجديد هو التغلب على القيود المتأصلة في أنظمة التوصية الحالية من أجل الحصول على فهم أفضل وتفصيلي لما يريد المستخدمون قراءته أو الاستماع إليه أو مشاهدته على مستوى الفرد.

دلالات شخصية

تتنبأ أنظمة التوصية بما يود المستخدم قراءته أو مشاهدته بعد ذلك. يعد YouTube وGoogle Discover وGoogle News أمثلة على أنظمة التوصية للتوصية بالمحتوى للمستخدمين. الأنواع الأخرى من أنظمة التوصية هي توصيات التسوق.

تعمل أنظمة التوصية بشكل عام من خلال جمع البيانات حول أنواع الأشياء التي ينقر عليها المستخدم ويقيمها ويشتريها ويشاهدها، ثم يستخدم تلك البيانات لاقتراح المزيد من المحتوى الذي يتوافق مع تفضيلات المستخدم.

أشار الباحثون إلى هذه الأنواع من الإشارات على أنها تعليقات بدائية للمستخدم لأنها ليست جيدة جدًا في التوصيات المستندة إلى الحكم الشخصي للفرد حول ما هو مضحك أو لطيف أو ممل.

الحدس وراء البحث هو أن ظهور LLMs يمثل فرصة للاستفادة من تفاعلات اللغة الطبيعية لفهم ما يريده المستخدم بشكل أفضل من خلال تحديد القصد الدلالي.

يوضح الباحثون:

“لقد ظهرت أنظمة التوصية التفاعلية كنموذج واعد للتغلب على القيود المفروضة على ردود فعل المستخدم البدائية التي تستخدمها أنظمة التوصية التقليدية (على سبيل المثال، النقرات، واستهلاك العناصر، والتقييمات). فهي تسمح للمستخدمين بالتعبير عن النوايا والتفضيلات والقيود والسياقات بطريقة أكثر ثراء، وغالبا ما تستخدم اللغة الطبيعية (بما في ذلك البحث والحوار متعدد الأوجه).

ومع ذلك، هناك حاجة إلى مزيد من البحث للعثور على الطرق الأكثر فعالية لاستخدام هذه التعليقات. يتمثل أحد التحديات في استنتاج القصد الدلالي للمستخدم من المصطلحات أو السمات المفتوحة التي تُستخدم غالبًا لوصف العنصر المطلوب. يعد هذا أمرًا بالغ الأهمية لأنظمة التوصية التي ترغب في دعم المستخدمين في استخدامهم اليومي البديهي للغة الطبيعية لتحسين نتائج التوصية.

تحدي السمات الناعمة

وأوضح الباحثون أن السمات الصعبة هي شيء يمكن أن تفهمه أنظمة التوصية لأنها حقائق موضوعية مثل “النوع، الفنان، المخرج”. ما واجهوا مشاكل فيه هو أنواع أخرى من السمات تسمى “السمات الناعمة” وهي ذاتية ولا يمكن مطابقتها مع الأفلام أو المحتوى أو عناصر المنتج.

ويذكر البحث الخصائص التالية للسمات الناعمة:

  • “لا يوجد مصدر نهائي ل”الحقيقة الأساسية” يربط مثل هذه السمات الناعمة بالأشياء
  • قد يكون للسمات نفسها تفسيرات غير دقيقة
  • وقد تكون ذاتية بطبيعتها (أي أن المستخدمين المختلفين قد يفسرونها بشكل مختلف)”

مشكلة السمات الناعمة هي المشكلة التي شرع الباحثون في حلها وسبب تسمية الورقة البحثية باكتشاف الدلالات الشخصية للسمات الناعمة في أنظمة التوصية باستخدام متجهات تنشيط المفهوم.

الاستخدام الجديد لناقلات تنشيط المفهوم (CAVs)

تمثل متجهات تنشيط المفهوم (CAVs) طريقة لاستكشاف نماذج الذكاء الاصطناعي لفهم التمثيلات الرياضية (المتجهات) التي تستخدمها النماذج داخليًا. إنها توفر طريقة للبشر لربط تلك النواقل الداخلية بالمفاهيم.

لذا فإن الاتجاه القياسي لـ CAV يفسر النموذج. ما فعله الباحثون هو تغيير هذا الاتجاه بحيث أصبح الهدف الآن هو تفسير المستخدمين، وترجمة السمات الشخصية الناعمة إلى تمثيلات رياضية لأنظمة التوصية. اكتشف الباحثون أن تكييف CAVs لتفسير المستخدمين قد أتاح تمثيلات المتجهات التي ساعدت نماذج الذكاء الاصطناعي على اكتشاف النوايا الخفية والأحكام البشرية الذاتية التي تم تخصيصها للفرد.

كما يكتبون:

“لقد أثبتنا… أن تمثيل CAV الخاص بنا لا يفسر بدقة الدلالات الشخصية للمستخدمين فحسب، بل يمكن استخدامه أيضًا لتحسين التوصيات من خلال نقد العناصر التفاعلية.”

على سبيل المثال، يمكن للنموذج أن يتعلم أن المستخدمين يقصدون أشياء مختلفة بكلمة “مضحك” وأن يكونوا أكثر قدرة على الاستفادة من تلك الدلالات الشخصية عند تقديم التوصيات.

المشكلة التي يحلها الباحثون هي معرفة كيفية سد الفجوة الدلالية بين الطريقة التي يتحدث بها البشر وكيف “تفكر” الأنظمة الموصى بها.

يفكر البشر في المفاهيم، باستخدام أوصاف غامضة أو ذاتية (تسمى السمات الناعمة).

أنظمة التوصية “تفكر” في الرياضيات: تعمل على المتجهات (قوائم الأرقام) في “مساحة التضمين” عالية الأبعاد.

تصبح المشكلة بعد ذلك جعل الكلام البشري الذاتي أقل غموضًا ولكن دون الحاجة إلى تعديل أو إعادة تدريب نظام التوصية بكل الفروق الدقيقة. تقوم مركبات CAV بهذا الرفع الثقيل.

يوضح الباحثون:

“… نحن نستنتج دلالات السمات الناعمة باستخدام التمثيل الذي تعلمه نموذج نظام التوصية نفسه.”

يذكرون أربع مزايا لنهجهم:

“(1) يتم توجيه قدرة نموذج نظام التوصية إلى التنبؤ بتفضيلات عنصر المستخدم دون محاولة التنبؤ بمعلومات جانبية إضافية (على سبيل المثال، العلامات)، والتي غالبًا لا تعمل على تحسين أداء نظام التوصية.

(2) يمكن لنموذج نظام التوصية أن يستوعب السمات الجديدة بسهولة دون إعادة التدريب في حالة ظهور مصادر جديدة للعلامات أو الكلمات الرئيسية أو العبارات التي يمكن من خلالها استخلاص سمات ناعمة جديدة.

(3) يوفر منهجنا وسيلة لاختبار ما إذا كانت السمات الناعمة المحددة ذات صلة بالتنبؤ بتفضيلات المستخدم. وبالتالي، نحن قادرون على تركيز الاهتمام على السمات الأكثر صلة بالتقاط نية المستخدم (على سبيل المثال، عند شرح التوصيات، أو استخلاص التفضيلات، أو اقتراح الانتقادات).

(4) يمكن للمرء أن يتعلم دلالات السمات/العلامات الناعمة بكميات صغيرة نسبيًا من البيانات المصنفة، بروح التدريب المسبق والتعلم القليل.

ثم يقدمون شرحًا عالي المستوى لكيفية عمل النظام:

“على المستوى الرفيع، يعمل نهجنا على النحو التالي. نحن نفترض أننا حصلنا على ما يلي:

(1) نموذج أسلوب التصفية التعاوني (على سبيل المثال، تحليل المصفوفة الاحتمالية أو التشفير المزدوج) الذي يدمج العناصر والمستخدمين في مساحة كامنة بناءً على تقييمات عناصر المستخدم؛ و

(2) مجموعة (صغيرة) من العلامات (أي تسميات السمات الناعمة) المقدمة من مجموعة فرعية من المستخدمين لمجموعة فرعية من العناصر.

نحن نطور أساليب تربط كل عنصر بالدرجة التي يظهر بها سمة ناعمة، وبالتالي تحديد دلالات تلك السمة. نقوم بذلك من خلال تطبيق متجهات تنشيط المفهوم (CAVs) – وهي طريقة حديثة تم تطويرها لتفسير نماذج التعلم الآلي – على نموذج التصفية التعاوني لاكتشاف ما إذا كان قد تعلم تمثيلاً للسمة.

يوفر إسقاط CAV هذا في مساحة التضمين دلالات اتجاهية (محلية) للسمة التي يمكن تطبيقها بعد ذلك على العناصر (والمستخدمين). علاوة على ذلك، يمكن استخدام هذه التقنية لتحديد الطبيعة الذاتية للسمة، على وجه التحديد، ما إذا كان لدى المستخدمين المختلفين معانٍ مختلفة (أو حواس العلامة) في الاعتبار عند استخدام تلك العلامة. يمكن أن تكون مثل هذه الدلالات الشخصية للسمات الذاتية أمرًا حيويًا للتفسير السليم للنية الحقيقية للمستخدم عند محاولة تقييم تفضيلاته.

هل يعمل هذا النظام؟

إحدى النتائج المثيرة للاهتمام هي أن اختبارهم للعلامة الاصطناعية (السنة الفردية) أظهر أن معدل دقة الأنظمة كان بالكاد أعلى من الاختيار العشوائي، وهو ما يدعم فرضيتهم القائلة بأن “CAVs مفيدة لتحديد السمات/العلامات ذات الصلة بالتفضيلات”.

ووجدوا أيضًا أن استخدام CAVs في أنظمة التوصية كان مفيدًا لفهم سلوك المستخدم “القائم على النقد” وتحسين تلك الأنواع من أنظمة التوصية.

وقد ذكر الباحثون أربع فوائد:

“(1) استخدام تمثيل التصفية التعاوني لتحديد السمات ذات الصلة الأكبر بمهمة التوصية؛

(2) التمييز بين الاستخدام الموضوعي والذاتي للعلامة؛

(3) تحديد دلالات شخصية خاصة بالمستخدم للسمات الشخصية؛ و

(4) ربط دلالات السمات بتمثيلات التفضيلات، مما يسمح بالتفاعلات باستخدام السمات/العلامات الناعمة في النقد على سبيل المثال وأشكال أخرى من استنباط التفضيلات.

ووجدوا أن نهجهم أدى إلى تحسين التوصيات في المواقف التي يكون فيها اكتشاف السمات الناعمة أمرًا مهمًا. يعد استخدام هذا النهج في المواقف التي تكون فيها السمات الصلبة هي القاعدة، كما هو الحال في تسوق المنتجات، مجالًا للدراسة المستقبلية لمعرفة ما إذا كانت السمات الناعمة ستساعد في تقديم توصيات المنتج.

الوجبات الجاهزة

تم نشر الورقة البحثية في عام 2024 واضطررت إلى البحث للعثور عليها بالفعل، وهو ما قد يفسر سبب عدم ملاحظتها بشكل عام في مجتمع التسويق عبر البحث.

اختبرت Google بعضًا من هذا النهج باستخدام خوارزمية تسمى WALS (المربعات الصغرى المتناوبة المرجحة)، وهي رمز الإنتاج الفعلي الذي يعد منتجًا في Google Cloud للمطورين.

هناك ملاحظتان في الحاشية وفي الملحق توضحان ما يلي:

“تستخدم ملفات CAV الموجودة في بيانات MovieLens20M ذات السمات الخطية التضمينات التي تم تعلمها (عبر WALS) باستخدام كود الإنتاج الداخلي، وهو غير قابل للإصدار.”

…تم التعرف على التضمينات الخطية (عبر WALS، الملحق أ.3.1) باستخدام كود الإنتاج الداخلي، وهو غير قابل للإصدار.

يشير “رمز الإنتاج” إلى البرنامج الذي يتم تشغيله حاليًا في منتجات Google التي تواجه المستخدم، وفي هذه الحالة Google Cloud. من المحتمل ألا يكون المحرك الأساسي لبرنامج Google Discover، ولكن من المهم ملاحظة ذلك لأنه يوضح مدى سهولة دمجه في نظام التوصية الحالي.

لقد اختبروا هذا النظام باستخدام مجموعة بيانات MovieLens20M، وهي مجموعة بيانات عامة تضم 20 مليون تقييم، مع إجراء بعض الاختبارات باستخدام محرك التوصيات الخاص بشركة Google (WALS). وهذا يضفي مصداقية على الاستدلال بأن هذا الرمز يمكن استخدامه على نظام مباشر دون الحاجة إلى إعادة تدريبه أو تعديله.

الفكرة التي أراها في هذه الورقة البحثية هي أن هذا يجعل من الممكن لأنظمة التوصية الاستفادة من البيانات الدلالية حول السمات الناعمة. يعتبر Google Discover مجموعة فرعية من البحث، وأنماط البحث هي بعض البيانات التي يستخدمها النظام لعرض المحتوى. لا تذكر Google ما إذا كانت تستخدم هذا النوع من الأساليب، ولكن نظرًا للنتائج الإيجابية، فمن الممكن استخدام هذا الأسلوب في أنظمة التوصية الخاصة بـ Google. إذا كان الأمر كذلك، فهذا يعني أن توصيات Google قد تكون أكثر استجابة للدلالات الشخصية للمستخدمين.

تعتمد الورقة البحثية على Google Research (60% من الاعتمادات)، وكذلك Amazon وMidjourney وMeta AI.

ملف PDF متاح هنا:

اكتشاف دلالات شخصية للسمات الناعمة في أنظمة التوصية باستخدام ناقلات تنشيط المفهوم

صورة مميزة بواسطة Shutterstock / هنا


Source link

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى