قم بإنشاء وكيل يتعلم من التفاعلات باستخدام AutoGen

تخيل أن روبوت الدردشة يقوم بإلقاء نكتة، ويعطيه المستخدم تعليقات سلبية. نفس الوكيل أكثر تسلية بكثير فيما يتعلق بالموضوع المذكور بعد أسبوع. وهذا ما نعنيه بالتكيف المباشر للوكيل. معظم وكلاء الدردشة حتى الآن هم برامج ثابتة بطبيعتها. إنهم لا يتعلمون حقًا من تعليقات المستخدمين أثناء وقت التشغيل. ولكن يمكننا تنفيذ القدرة الحاسمة لتشغيل التعلم عبر الزمن باستخدام نظام متقدم. يقدم هذا البرنامج التعليمي وصفًا لكيفية إجراء التعلم المستمر باستخدام إمكانية التدريس AutoGen. سنقدم أيضًا عرضًا توضيحيًا لوقت التشغيل وطرقًا جيدة لتحقيق التكيف الناجح للوكيل.
ما هو التوليد التلقائي؟
يعد AutoGen إطارًا قويًا لإنشاء مسارات عمل معقدة للذكاء الاصطناعي. إنه ممتاز في قدرته على تنسيق المحادثات بين العديد من الوكلاء المستقلين. يمنح إطار العمل متعدد الوكلاء هذا الأدوار المختلفة لكل وكيل. يتعاون الوكلاء من أجل حلول المهام المعقدة والمتعددة الخطوات.
يستخدم النظام أنماط محادثة قابلة للتركيب، ويحدد المستخدم الوكلاء وبروتوكول الاتصال الخاص بهم. لا يحتوي هذا التصميم على نفس القيود المرتبطة بالذكاء الاصطناعي الفردي. يدعم AutoGen أنواعًا مختلفة من الوكلاء مثل AssistantAgent وUserProxyAgent. في هذا الإعداد، يمكن اختراع عوامل الذكاء الاصطناعي القابلة للتعليم في بيئة مثالية. إطار العمل قابل للتوسيع، مما يجعله مناسبًا لتوفير إمكانات جديدة، بما في ذلك التعلم.
اقرأ المزيد: إنشاء إطارات عمل متعددة الوكلاء باستخدام AutoGen
ماذا يعني “التعلم من التفاعلات”؟
يتعلم الوكيل من التفاعلات فيما يتعلق بتغيير سلوكه المستقبلي. هذا التغيير هو نتيجة التجارب التي حدثت أثناء المحادثة المباشرة. في الضبط الدقيق دون الاتصال بالإنترنت، يتدرب النموذج على مجموعة بيانات ضخمة وثابتة ويحتاج إلى وقت طويل للانتهاء. هنا، عليك التركيز على إجراء تصحيحات محلية وفورية وعالية التأثير.
يحتاج عملاء الذكاء الاصطناعي القابلون للتعليم إلى تغيير استجاباتهم مرة واحدة. يمكنهم تعلم كيفية إصلاح حقيقة أو تغيير الشخصية ثم تغيير لهجتهم أو تفضيلاتهم أو إستراتيجيتهم بسرعة لمهمة ما. هذا يعتمد على قدرة الوكيل على تخزين السياق. ترتبط القدرة على التعلم من التعليقات الناتجة عن المستخدمين ارتباطًا وثيقًا بفائدة النظام.
المفهوم الأساسي: القدرة على التدريس
ضمن هذا الإطار متعدد الوكلاء، يمكن استخدام القدرة على التدريس لتوفير الأساس للوكيل القابل للتكيف. هذه أداة يمكن استخدامها لتخزين واسترجاع المعرفة المكتسبة في المحادثة. تقوم قدرة قابلية التعليم AutoGen بالعبء الثقيل لإنشاء آلية للتعلم المستمر.
تعمل هذه القدرة عن طريق توجيه مقتطفات المحادثة وتصحيحات المستخدم وتخزينها في قاعدة بيانات متجهة محلية. على هذا النحو، تمثل قاعدة البيانات هذه عاملًا ثابتًا للذاكرة. ثم بالنسبة لأي سؤال جديد قادم، يقوم الوكيل ببساطة بفحص ذاكرته، واسترداد الدروس/التصحيحات السابقة ذات الصلة وإدخالها في الموجه الحالي والسماح للنموذج بتكييف استجابته على الفور. يعد هذا تكيفًا حسب الطلب بدون استدعاء واجهة برمجة التطبيقات (API) أو تحديث أوزان النموذج. من خلال هذه العملية، يتم إنتاج عوامل قابلة للتكيف والاستجابة بشكل أصلي.
العمارة والمكونات
لا تزال بنية وكيلنا القابل للتعلم بسيطة للغاية وتتكون من مكونات عادية موجودة في مجموعة أدوات AutoGen؛ عميلان رئيسيان وقدرة أساسية واحدة.
ال UserProxyAgent و AssistantAgent هم المشاركون في المناقشة. يأتي المساعد مع شخص معين – الممثل الكوميدي، على سبيل المثال. تعد إمكانية تعليم AutoGen بمثابة مرفق مرتبط مباشرة بـ AssistantAgent. ويشمل المنطق لتخزين واسترجاع الدروس. مع هذا التكوين، يكون لدى الوكيل مخزن عملي لذاكرة الوكيل المستمر.
المكونات الرئيسية تشمل:
- الوكيل المساعد: وكيل العمل الأساسي الذي لديه شخصية. تتم معالجة الاستعلام، ويتم إنشاء الاستجابة.
- وكيل المستخدم: هذه هي واجهة المحادثة. يوفر آليات إدخال المستخدم وتنفيذ التعليمات البرمجية.
- القدرة على التدريس: تشرف هذه الوحدة على دورة التعلم. يقوم بإضافة مقاطع المحادثة إلى ذاكرة الوكيل الدائم بعد كل محادثة.
يوفر هذا الإعداد البسيط والقوي الأساس لوكلاء الذكاء الاصطناعي المتقدمين والقابلين للتعليم.
إرشادات التنفيذ خطوة بخطوة
نحن نستخدم الكود الموجود في دفاتر ملاحظات Python لتنفيذ الممثل الكوميدي القابل للتعلم. توضح هذه العملية العملية التكوين بوضوح. نقوم أولاً بتثبيت التبعيات المطلوبة لـ AutoGen والمكونات القابلة للتعليم من AutoGen.
!pip install autogen ag2(teachable)
بعد ذلك، نحدد التكوين الذي يتبعه الوكلاء.
تحديد التكوين وإعداد الوكيل
أولاً، نحدد قائمة تكوين نموذج اللغة الكبيرة. أنه يحتوي على النموذج ومفتاح API للوكيل. ال AssistantAgent هو الممثل الكوميدي لدينا، الذي لديه شخصية معينة محددة.
# Define the configuration list with environment variables
config_list = (
{
"model": "gpt-4o-mini",
"api_key": userdata.get('OPENAI_KEY')
}
)
# Create an instance of AssistantAgent for a comedian
comedian = AssistantAgent(
name="comedian",
system_message="You are a professional comedian. You can tell jokes and entertain people.",
llm_config={"config_list": config_list}
)
إرفاق القدرة على التدريس
تقدم هذه الخطوة إمكانية تعليم AutoGen. نحن نمثل Teachability وإرفاقه بالوكيل الكوميدي. ال path_to_db_dir يقوم بإعداد التخزين المحلي لذاكرة الوكيل الدائمة. وضعنا reset_db=خطأ بحيث يحتفظ الوكيل بالمعرفة عبر الأشواط.
from autogen.agentchat.contrib.capabilities.teachability import Teachability
# Create an instance of Teachability
teachability = Teachability(
reset_db=False,
path_to_db_dir="./comedian_assistant_experience",
llm_config={"config_list": config_list}
)
# Add the Teachability capability to the comedian agent
teachability.add_to_agent(comedian)
ابدأ حلقة الدردشة
نقوم بإنشاء UserProxyAgent، والتي سوف تتعامل مع الواجهة. الآن، نبدأ محادثة لاختبار عملاء الذكاء الاصطناعي القابلين للتعليم، PK. تسجل حلقة الدردشة المدخلات والمخرجات وجميع تعليقات المستخدم. تسمح هذه العملية للوكيل بالتعلم على الفور من تعليقات المستخدمين
# Create an instance of UserProxyAgent
user_proxy = UserProxyAgent(
name="user_proxy",
code_execution_config={"work_dir": "coding", "use_docker": False}
)
# Initiate a chat between the user_proxy and the comedian agent
user_proxy.initiate_chat(
comedian,
message="Tell me a joke about cats and ninjas."
)
توضح مخرجات دفتر الملاحظات بوضوح عملية التعلم. يبدأ الوكيل بمحاولة تقليدية.
- النكتة الأولية: “لماذا أصبحت القطة نينجا؟ لأنها أرادت أن تتقن فن الخرخرة بصمت! “
- ملاحظات المستخدم (التصحيح الأول): نكتة سيئة
- محاولة الوكيل الثانية: “لماذا لا تصبح القطط نينجا جيدة على الإطلاق؟ لأنها تترك دائمًا أثرًا خلفها! كيف هذا؟”
- تعليقات المستخدم (التصحيح الثاني): ما هذا؟ سوف يضحك الطفل على هذه النكتة.

يحاول الوكيل تقديم نكتة ثالثة تكون أكثر وصفًا وترابطًا. لقد التقط كل جزء صريح من مدخلات المستخدم وقام بتخزين الأشياء التي لم يعجبه في ذاكرته لاستخدامها في المستقبل. وبناءً على تلك الذاكرة، سيحاول تجنب مثل هذه النكات في المحادثات اللاحقة. النظام ديناميكي ويتكيف مع ملف تعريف المستخدم الفكاهي في الوقت الفعلي. إن القدرة على التعلم الفوري من تعليقات المستخدمين هي ما يميز هذا الوكيل كعامل ديناميكي.

التقييم: كيفية قياس التعلم
يولد الوكيل الناجح القابل للتعليم تحسينات قابلة للقياس في الأداء. يجب أن تكون فائدة ودقة التكيف موضوعا للتقييم. نحن نستخدم مقاييس قصيرة المدى وطويلة المدى للتقييم.
توفر التدابير قصيرة المدى نجاحًا فوريًا. وهي قياسات لملاءمة الاستجابة بعد التصحيح. يقومون بتقييم ما إذا كان الوكيل قد فعل ما هو منصوص عليه في تعليمات التغذية الراجعة المباشرة. تقيس المقاييس طويلة المدى معرفة الاحتفاظ بالموظفين. يقيسون الانخفاض في تكرار الأخطاء في العديد من الجلسات. يمكن استخدام اختبار أ/ب لمقارنة أداء عوامل الذكاء الاصطناعي القابلة للتعليم مع خطوط الأساس غير القابلة للتعليم. مراقبة السلامة لها أهمية كبيرة في نفس الوقت. نحتاج إلى التأكد من عدم وجود أي مخرجات غير آمنة أو متحيزة من الوكيل الذي يتعلم من تفاعلات المستخدم.
أفضل الممارسات والنصائح العملية
يجب أن يركز اعتبار التصميم لأي حلقة تعلم على الاستقرار. يحتاج وكلاء الذكاء الاصطناعي PK القابلين للتعليم إلى التكامل بعناية مع الأنظمة الحالية.
- تصديق: يجب أن يتحقق نظام التفاعل البشري أو حدود الثقة دائمًا من صحة التصحيحات المقدمة من المستخدم لمنع الوكيل من اعتماد معلومات سيئة.
- سجلات التدقيق: الاحتفاظ بسجلات واسعة النطاق لكافة التحديثات للذاكرة. لا تتيح هذه الإجراءات التراجع فحسب، بل تتيح أيضًا إجراء تحقيقات جنائية في حالات الفشل في التعلم.
- خصوصية: إخفاء هوية تفاعلات المستخدم قبل تخزينها في ذاكرة الوكيل الدائم. قم بإعداد إرشادات واضحة بشأن محو البيانات لتلبية لوائح الخصوصية.
- التفاصيل: عندما يكون ذلك ممكنًا، قم بتقييد التغييرات على تحديثات الذاكرة الصغيرة؛ تجنب الضبط الدقيق للنموذج بالكامل.
المزالق الشائعة وكيفية تجنبها
ينطوي تنفيذ إمكانية تعليم AutoGen على عدد من المخاطر. مطلوب التخفيف النشط من قبل المطورين ضد هذه المخاطر الشائعة.
- التجهيز الزائد: قد يقوم الوكيل بتجاوز التفضيلات أو المراوغات الفريدة لمستخدم معين. يتضمن التخفيف وزن الذاكرة بناءً على تنوع المصدر.
- التعلم العدائي: قد يتم إدخال معلومات سامة أو خاطئة بواسطة مستخدمين ضارين. نتجنب ذلك من خلال طبقات الاعتدال والتصفية قبل ثبات الذاكرة.
- التقييم الموضوعي: وبدون تقييم موضوعي للتحسينات، لن يتم تحقيق التحسينات الفعلية. استخدم دائمًا مجموعة اختبار صغيرة وثابتة من أخطاء الماضي لقياس معدل الاحتفاظ بالموظفين. وهذا يدل على أن الوكيل قام بالفعل بتحسين أدائه.
ملحقات وأفكار متقدمة
العامل الأساسي القابل للتعليم هو الأساس لأنظمة أكثر تعقيدًا. يدعم إطار العمل متعدد الوكلاء بنية التعلم المتطورة.
أحد المفاهيم المتقدمة هو النهج المختلط، حيث يتم الجمع بين الذاكرة السريعة والعابرة مع الضبط الدقيق للنموذج غير المتصل بالإنترنت والمجدول. وهذا يحقق أفضل ما في العالمين: رد فعل فوري وتحسين عميق وطويل الأمد.
هناك طريق آخر يمكن اتباعه وهو التعلم متعدد الوكلاء. في هذا السيناريو، يقوم الوكلاء بتعليم بعضهم البعض في بيئة تعاونية. يشارك الوكيل التصحيحات مع مجموعة كاملة من العمال. تعمل هذه الفكرة على توسيع المفهوم الأساسي إلى ما هو أبعد من وكيل واحد.
وأخيرًا، قم بدمج قدرة AutoGen Teachability مع نظام الاسترجاع المعزز، أو نظام RAG. يقوم الوكيل بتخزين التصحيحات إلى جانب مقتطفات المصدر الخارجي. وهذا يسمح بمزيج قوي من الخبرة الشخصية والمعرفة الخارجية.
خاتمة
يحقق وكلاء الذكاء الاصطناعي القابلون للتعليم نوعًا مختلفًا تمامًا من المرافق لنظام الذكاء الاصطناعي. توفر قدرة AutoGen لقابلية التعليم أسلوبًا قويًا وبسيطًا للسلوك التكيفي. قد يكون الوكيل قادرًا على تحقيق النجاح في التعلم من تعليقات المستخدمين مثل هذا التحسين في الشخصية من خلال دعم نظام يعتمد على ذاكرة الوكيل المستمرة ضمن إطار عمل متعدد الوكلاء قابل للتطوير. اتبع هذا: يتم توفير دفتر ملاحظات للبدء: تحتاج إلى استنساخ الكود وتحديد شخصية جديدة ومعرفة كيف يتكيف وكيلك. قم ببناء عملاء متطورين وقابلين للتكيف الآن.
الأسئلة المتداولة
أ. تقوم القدرة بتخزين محفوظات المحادثة وتصحيحات المستخدم في ذاكرة الوكيل الدائمة. فهو يستعيد الدروس من أجل تعديل استجاباته المستقبلية.
أ. يؤدي الضبط الدقيق إلى تغيير أوزان النماذج دون اتصال بالإنترنت في مجموعات البيانات الكبيرة، بينما تشير إمكانية التعليم إلى التكيف الفوري في وقت التشغيل استنادًا إلى تفاعل مستخدم واحد.
ج: لا، فهو يعلق على أي AssistantAgent. إنه يعمل جنبًا إلى جنب مع UserProxyAgent الذي يوفر واجهة المحادثة.
A. تعمل الوظيفة الأساسية مع أي نموذج، لكن ثبات الذاكرة يعتمد على نماذج تضمين المتجهات. يستخدم الكمبيوتر المحمول gpt-4o-mini.
أ. تنفيذ طبقات من الاعتدال و/أو منطق التحقق؛ سيؤدي هذا إلى تصفية تعليقات المستخدم غير الصحيحة أو المعارضة قبل أن يقبلها مخزن الذاكرة.
قم بتسجيل الدخول لمواصلة القراءة والاستمتاع بالمحتوى الذي ينظمه الخبراء.
Source link



