الذكاء الاصطناعي

كلود أوبوس 4.6 مقابل OpenAI Codex 5.3: أيهما أفضل؟

اشتد التنافس بين Anthropic وOpenAI، بدءًا من إعلانات Super Bowl المتنافسة وحتى إطلاق نماذج برمجة جديدة في نفس اليوم. Anthropic’s Claude Opus 4.6 وOpenAI’s Codex 5.3 أصبحا الآن مباشرين. يُظهر كلاهما معايير قوية، ولكن أيهما يبرز حقًا؟ سأختبرهم وأقارن أدائهم في نفس المهمة. دعونا نرى أي واحد يأتي على القمة.

OpenAI Codex 5.3 مقابل كلود أوبوس 4.6: المعايير

تم وصف نتائج Claude 4.6 Opus لـ SWE-Bench وCybersecurity بأنها “رائدة في الصناعة” أو “أعلى المخطط” في ملاحظات الإصدار الخاصة بها، مع الإشارة إلى أداء محدد عالي المستوى في بطاقات النظام الخاصة بها.

المعيار إغلاق 4.6 العمل GPT-5.3-المخطوطة ملحوظات
المحطة الطرفية 2.0 81.4% 77.3% المهارات الطرفية للوكيل ومهام النظام.
سوي-مقعد برو ~57%* 56.8% هندسة البرمجيات الواقعية (متعددة اللغات).
الناتج المحلي الإجمالي فال-AA الرائدة (+144 إيلو) 70.9% (عالي) المعرفة المهنية قيمة العمل.
تم التحقق منه بواسطة OSWorld 72.7% 64.7% استخدام بيئة سطح المكتب المرئية.
آخر امتحان للإنسانية المركز الأول لا يوجد التفكير المعقد متعدد التخصصات.
نافذة السياق 1 مليون توكينز 128 كيلو (الإخراج) يدعم كلود حد إدخال 1M / حد إخراج 128k.
الأمن السيبراني (CTF) ~78%* 77.6% تحديد وتصحيح نقاط الضعف.

كلود 4.6 أوبوس (أنثروبي):

  • ركز: استثنائي في التفكير العميق واسترجاع السياق الطويل (مليون رمز). إنه يتفوق في Terminal-Bench 2.0، مما يشير إلى أنه حاليًا أقوى نموذج للتخطيط الوكيل والمهام المعقدة على مستوى النظام.
  • ميزات جديدة: يقدم “التفكير التكيفي” و”ضغط السياق” لإدارة المهام طويلة الأمد دون فقدان التركيز.

إليك مراجعتنا التفصيلية لـ Claude Opus 4.6.

GPT-5.3 الدستور الغذائي (OpenAI):

  • ركز: متخصص في دورة حياة البرنامج الكاملة واستخدام الكمبيوتر المرئي. يُظهر قفزة هائلة في نظام OSWorld-Verified، مما يجعله فعالاً للغاية في التنقل بين واجهة المستخدم/تجربة المستخدم لإكمال المهام.
  • ميزات جديدة: مُحسّن للسرعة (25% أسرع من 5.2) و”التعاون التفاعلي”، مما يسمح للمستخدمين بتوجيه النموذج في الوقت الفعلي أثناء تنفيذه.

إليك مدونتنا التفصيلية حول Codex 5.3.

كيفية الوصول؟

  • بالنسبة لأوبوس 4.6: لقد استخدمت حساب Claude Pro الخاص بي بقيمة 17 دولارًا شهريًا.
  • بالنسبة للدستور الغذائي 5.3: لقد استخدمت تطبيق macOS الخاص بـ codex وحساب ChatGPT plus الخاص بي (1999 دولارًا شهريًا) لتسجيل الدخول.

مهام كلود أوبوس 4.6 مقابل مهام OpenAI Codex 5.3

والآن بعد أن انتهينا من كل الأساس، دعونا نقارن أداء هذه النماذج. يمكنك العثور على إجاباتي السريعة والنموذجية وردودي على نفس الشيء:

المهمة 1: استنساخ نمط تويتر (تطبيق الويب)

اِسْتَدْعَى:

أنت مهندس متكامل ومصمم منتجات خبير. تتمثل مهمتك في إنشاء نسخة بسيطة على غرار Twitter (تطبيق ويب) باستخدام بيانات الواجهة الأمامية الوهمية.

الاستخدام: Next.js (جهاز توجيه التطبيقات) + React + TypeScript + Tailwind CSS. لا توجد مصادقة ولا واجهة خلفية حقيقية؛ لقد سخر للتو من بيانات الذاكرة في الواجهة الأمامية.

المتطلبات الأساسية:

  • الشريط الجانبي الأيسر: الشعار، التنقل الرئيسي (الصفحة الرئيسية، الاستكشاف، الإشعارات، الرسائل، الإشارات المرجعية، القوائم، الملف الشخصي، المزيد)، زر “النشر” الأساسي.
  • تغذية المركز: مخطط زمني يتضمن التغريدات، والملحن في الأعلى (الصورة الرمزية للملف الشخصي + إدخال “ماذا يحدث؟”)، وكل تغريدة تحتوي على الصورة الرمزية، والاسم، والاسم، والوقت، والنص، والصورة الاختيارية، والإجراءات (الرد، وإعادة التغريد، والإعجاب، والعرض/المشاركة).
  • الشريط الجانبي الأيمن: شريط البحث، ومربع “الاتجاهات بالنسبة لك” (المواضيع التي تحتوي على عدد التغريدات)، وبطاقة “من يجب متابعته” (3 ملفات تعريف وهمية).
  • شريط التنقل العلوي: تم إصلاحه مع “الصفحة الرئيسية” وعلامتي التبويب: “لك” و”للمتابعة”.
  • سلوك الهاتف المحمول: على الشاشات الصغيرة، قم بإظهار شريط التنقل السفلي الذي يحتوي على أيقونات بدلاً من الشريط الجانبي الأيسر.

البيانات الوهمية:

  • إنشاء أنواع TypeScript للتغريدة والمستخدم والاتجاه.
  • تطبيق البذور مع:
    • 15 تغريدة وهمية (نصوص قصيرة/طويلة، بعضها يحتوي على صور، وعدد الإعجابات/إعادة التغريد/الردود متفاوت).
    • 5 اتجاهات وهمية (الاسم، الفئة، عدد التغريدات).
    • 5 مستخدمين وهميين لـ “من يجب المتابعة”.

سلوك:

  • ملحن المشاركة: اكتب تغريدة وأضفها على الفور إلى أعلى خلاصة “من أجلك”.
  • زر الإعجاب: تبديل حالة الإعجاب/عدم الإعجاب وتحديث عدد الإعجابات.
  • علامات التبويب: يعرض خيار “من أجلك” جميع التغريدات، ويعرض خيار “متابعة” التغريدات من 2 إلى 3 مستخدمين محددين.
  • شريط البحث: تصفية الاتجاهات حسب الاسم حسب نوع المستخدم.

هيكل الملف والمكونات:

  • التطبيق/layout.tsx: تخطيط عالمي.
  • التطبيق/page.tsx: صفحة التغذية الرئيسية.
  • المكونات/الشريط الجانبي.tsx: الشريط الجانبي الأيسر.
  • المكونات/Feed.tsx: تغذية المركز.
  • المكونات/Tweet.tsx: بطاقات تغريدات فردية.
  • المكونات/TweetComposer.tsx: الملحن.
  • المكونات/RightSidebar.tsx: الاتجاهات + من يجب المتابعة.
  • المكونات/BottomNav.tsx: التنقل السفلي للجوال.
  • البيانات/البيانات.ts: البيانات الوهمية وأنواع TypeScript.

استخدم Tailwind CSS لمطابقة تصميم Twitter: نص داكن على خلفية فاتحة، وبطاقات مستديرة، وفواصل دقيقة.

الإخراج:

  • قدم نظرة عامة قصيرة (من 5 إلى 7 نقاط) للبنية وتدفق البيانات.
  • قم بإخراج جميع الملفات مع التعليقات في الأعلى للحصول على مسارات الملفات والتعليمات البرمجية الكاملة الجاهزة للنسخ واللصق.
  • قم بمطابقة الواردات مع مسارات الملفات المستخدمة.

قيود:

  • لا توجد واجهة خلفية أو قاعدة بيانات أو واجهة برمجة تطبيقات خارجية — يجب تشغيل كل شيء باستخدامها npm run dev.
  • استخدم معيارًا إنشاء التطبيق التالي + Tailwind يثبت.
  • احتفظ بكل المحتوى وهميًا (بدون أسماء مستخدمين حقيقية أو محتوى محمي بحقوق الطبع والنشر).

كيفية التشغيل:

بعد إنشاء مشروع Next.js + Tailwind، قم بتشغيل التطبيق بالأوامر المحددة المتوفرة.

الإخراج:

رأيي:

كان استنساخ تويتر الذي أنشأه كلود أفضل بشكل ملحوظ. تمكنت Codex من إنشاء لوحة شريط جانبي، لكنها كانت تفتقد صورًا وبدا أنها غير مكتملة، في حين بدت نسخة كلود أكثر صقلًا وجاهزة للإنتاج.

المهمة 2: إنشاء لعبة البلاك جاك

اِسْتَدْعَى:

نظرة عامة على اللعبة:

أنشئ لعبة بلاك جاك بسيطة وعادلة 1 ضد 1 حيث يتنافس اللاعب البشري ضد تاجر كمبيوتر، وفقًا لقواعد الكازينو القياسية. يجب أن يتبع الكمبيوتر قواعد الموزع الثابتة وألا يغش أو يلقي نظرة خاطفة على المعلومات المخفية.

التكنولوجيا والهيكل:

  • يستخدم HTML, CSS، و جافا سكريبت فقط.
  • تطبيق من صفحة واحدة يحتوي على ثلاثة ملفات: index.html, style.css, script.js.
  • لا توجد مكتبات خارجية.

قواعد اللعبة (البلاك جاك القياسية):

  • ظهر السفينة: 52 بطاقة، 4 بدلات، القيم:
    • بطاقات الأرقام: القيمة الاسمية.
    • ي، س، ك: القيمة 10.
    • ارسالا ساحقا: القيمة 1 أو 11، أيهما أفضل دون خرق.
  • الصفقة الأولية:
    • اللاعب: 2 بطاقات مواجهة.
    • تاجر: ورقتان، واحدة وجهها لأعلى، وواحدة وجهها لأسفل.
  • دور اللاعب:
    • الخيارات: “اضرب” (خذ البطاقة) أو “قف” (انتهى الدور).
    • إذا تجاوز اللاعب 21 عامًا، فإنه يفشل ويخسر على الفور.
  • دور التاجر (المنطق الثابت):
    • كشف البطاقة المخفية.
    • يجب على الموزع أن يصل إلى 17 أو أكثر، ويجب أن يقف عند 17 أو أكثر (اختر “الضغط على soft 17” أو “الوقوف على جميع الـ 17” واذكر ذلك بوضوح في واجهة المستخدم).
    • لا يرى الموزع البطاقات المستقبلية أو قواعد التجاوز.
  • حصيلة:
    • إذا أفلس الموزع ولم يفلس اللاعب، يفوز اللاعب.
    • إذا لم ينهار أي منهما، فإن المجموع الأعلى يفوز.
    • المجاميع المتساوية = “الدفع” (ربطة عنق).

متطلبات العدالة / عدم التحيز:

  • استخدم أوراق اللعب التي تم خلطها بشكل صحيح في بداية كل جولة (على سبيل المثال، خلط ورق اللعب فيشر ييتس).
  • يجب على التاجر ألا يغير سلوكه بناءً على معلومات مخفية.
  • لا تقم بإعادة ترتيب سطح السفينة في منتصف الجولة.
  • احتفظ بكل منطق اللعبة script.js للسمع.
  • اعرض رسالة مثل: “الموزع يتبع القواعد الثابتة (يصل حتى 17، ويقف عند 17+). لا يوجد تلاعب.”

متطلبات واجهة المستخدم:

  • تَخطِيط:
    • قمة: قسم التاجر – إظهار بطاقات التاجر والإجمالي.
    • وسط: نص الحالة (على سبيل المثال، “دورك – اضرب أم توقف؟”، “الموزع يرسم…”، “لقد فزت!”، “الموزع يفوز”، “ادفع”).
    • قاع: قسم اللاعب – يعرض بطاقات اللاعب والإجمالي والأزرار الخاصة بالضرب والوقوف والجولة الجديدة.
    • عرض البطاقات كمستطيلات بسيطة ذات الرتبة والنوع (نص فقط، بدون صور).
    • عرض عدادات الفوز/الخسارة/التعادل.

التفاعلات والتدفق:

  • عند تحميل الصفحة، أظهر زر “بدء اللعبة”، ثم قم بتوزيع البطاقات الأولية.
  • قم بتمكين أزرار الضرب/الوقوف فقط أثناء دور اللاعب.
  • بعد أن يقف اللاعب أو ينهار، قم بتشغيل الدور التلقائي للموزع خطوة بخطوة (مع فترات زمنية قصيرة).
  • في نهاية الجولة، أظهر رسالة النتائج وعدادات التحديث.
  • يقوم زر “الجولة الجديدة” بإعادة ضبط العقارب وإعادة تشكيل المجموعة.

تنظيم الكود:

  • وظائف في script.js:
    • createDeck(): إرجاع مجموعة جديدة مكونة من 52 بطاقة.
    • shuffleDeck(deck): خلط سطح السفينة (فيشر ييتس).
    • dealInitialHands(): يتعامل مع بطاقتين لكل منهما.
    • calculateHandTotal(hand): يتعامل مع الآص كـ 1 أو 11 على النحو الأمثل.
    • playerHit(), playerStand(), dealerTurn(), checkOutcome().
  • تتبع المتغيرات ل playerHand, dealerHand, deckوعدادات الفوز/الخسارة/التعادل.

تنسيق الإخراج:

  • اشرح بإيجاز في 5-7 نقاط كيف يتم ضمان العدالة وعدم التحيز.
  • إخراج المحتوى الكامل لـ:
    • index.html
    • style.css
    • script.js
  • تأكد من أن الكود جاهز للنسخ واللصق ومتسق (لا توجد وظائف أو متغيرات مفقودة).
  • أضف قسم “كيفية التشغيل”: اطلب وضع الملفات الثلاثة في مجلد وفتحه index.html في المتصفح.

الإخراج:

رأيي:

أصبحت الفجوة أكثر وضوحًا في لعبة البلاك جاك. أنتج Codex 5.3 مخرجات ثابتة ومملة للغاية. في المقابل، كان كلود أوبوس 4.6 متقدمًا كثيرًا. لقد قدمت حصيرة كازينو خضراء مناسبة، وواجهة مستخدم أكثر جاذبية، وتجربة ويب جذابة بشكل عام.

كلود أوبوس 4.6 مقابل OpenAI Codex 5.3: الحكم النهائي

تظل الآراء حول ما إذا كان Codex 5.3 أو Opus 4.6 أفضل منقسمة في مجتمع التكنولوجيا. يُفضل Codex 5.3 لسرعته وموثوقيته في إنتاج تعليمات برمجية خالية من الأخطاء وفعاليته في المهام الهندسية المعقدة، خاصة بالنسبة لإصلاحات الواجهة الخلفية والتنفيذ المستقل. من ناحية أخرى، يتفوق Opus 4.6 في التفكير العميق والقدرات الفعالة والتعامل مع المشكلات ذات السياق الطويل، مما يوفر تصميمات أكثر جاذبية لواجهة المستخدم. ومع ذلك، يمكن أن تواجه تحديات مع التكرارات وكفاءة الرمز المميز.

بعد تجربتي العملية مع كلا النموذجين، في هذه المعركة، Codex 5.3 ضد Claude Opus 4.6، سأختار Claude Opus 4.6 🏆.

إن الأداء العام وسهولة الاستخدام وواجهة المستخدم المصقولة جعلته متميزًا في المهام التي اختبرتها، على الرغم من أن Codex 5.3 كان له مزاياه من حيث السرعة والوظيفة.

لا تأخذ كلامي فقط. اختبر كلا النموذجين بنفسك واكتشف أيهما أفضل بالنسبة لك! اسمحوا لي أن أعرف أفكارك.

أنا متدرب في علوم البيانات في Analytics Vidhya، وأعمل بشغف على تطوير حلول الذكاء الاصطناعي المتقدمة مثل تطبيقات الذكاء الاصطناعي التوليدي، ونماذج اللغات الكبيرة، وأدوات الذكاء الاصطناعي المتطورة التي تدفع حدود التكنولوجيا. يتضمن دوري أيضًا إنشاء محتوى تعليمي جذاب لقنوات Analytics Vidhya على YouTube، وتطوير دورات شاملة تغطي نطاقًا كاملاً من التعلم الآلي إلى الذكاء الاصطناعي التوليدي، وتأليف مدونات تقنية تربط المفاهيم الأساسية بأحدث الابتكارات في الذكاء الاصطناعي. وأهدف من خلال ذلك إلى المساهمة في بناء أنظمة ذكية ومشاركة المعرفة التي تلهم مجتمع الذكاء الاصطناعي وتمكنه.

قم بتسجيل الدخول لمواصلة القراءة والاستمتاع بالمحتوى الذي ينظمه الخبراء.


Source link

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى