الذكاء الاصطناعي

اختبار لأفضل نموذج ترميز أنثروبي

لقد كان الأنثروبي يطن في الآونة الأخيرة. لقد تسببت مؤخرًا في انهيار سوق الأسهم بإصدارها لأداة Claude Cowork التي أدت إلى تدهور مخزون كبار مقدمي SaaS في جميع أنحاء العالم. والآن هم على وشك إحداث ثورة في نماذج الاستدلال مع أحدث إصدار لهم، Claude Opus 4.6، والذي يزعمون أنه أفضل نموذج برمجة لديهم حتى الآن.

سواء كان الأمر متروكًا للمطالبات أم لا، سنكتشف ذلك في هذه المقالة حيث نختبرها لمعرفة مدى نجاحها في مهام البرمجة والاستدلال.

إغلاق العمل 4.6!

خط Opus هو الطبقة العليا من عائلة Anthropic’s Claude، وهو مصمم للتفكير العميق والبرمجة المتقدمة. تم تصميم هذه النماذج للتعامل مع المهام الطويلة ومتعددة الخطوات التي تحتاج إلى التخطيط والاحتفاظ بالسياق وحل المشكلات بشكل منظم.

يُعد Claude Opus 4.6 أحدث إدخال في هذه المجموعة ونموذج البرمجة الأكثر قدرة لدى Anthropic حتى الآن. إنه يركز على جعل التفكير أكثر وضوحًا، وإنشاء التعليمات البرمجية بشكل أنظف، وإدارة سير العمل الطويل بشكل أسهل.

ما يجلبه Opus 4.6 إلى الطاولة:

  • أقوى المنطق متعدد الخطوات: تخطيط ومعالجة أفضل لحالات الحافة في المشكلات المعقدة.
  • تحسين أداء الترميز: إنشاء تعليمات برمجية أكثر موثوقية وتصحيح الأخطاء والاتساق عبر قواعد التعليمات البرمجية الكبيرة.
  • التعامل مع السياق لفترة أطول: يحافظ على السياق عبر المهام الممتدة والمستندات الكبيرة. نافذة رمزية تصل إلى مليون رمز مميز (128 ألف رمز مميز للإخراج).
  • الوعي بسير العمل: مصممة للمشاريع متعددة المراحل مثل تطوير البرمجيات والعمل التحليلي. ويمتد هذا ليشمل مشاريع متعددة الملفات، حيث يمكن استيراد مشروع بأكمله للعمل عليه.
  • التفكير التكيفي: يمكن لـ Opus 4.6 التفكير بمستويات جهد مختلفة. يمكنك إخبار Opus بمدى صعوبة التفكير: منخفض، أو متوسط، أو مرتفع، أو الحد الأقصى، وسيقرر متى يجب إنفاق المزيد من الحوسبة على المشكلات الصعبة.

كيفية الوصول إلى كلود أوبوس 4.6؟

كلود أوبوس 4.6 ممتاز، مدفوع نموذج يستهدف المستخدمين الذين يحتاجون إلى أداء عالي المستوى للبرمجة وسير العمل المعقد. إنه متاح داخل Claude ومن خلال منصة المطور الأنثروبي.

  • الوصول إلى تطبيق كلود: متاح ل Pro وMax وTeam وEnterprise المشتركين على كلود.
  • وصول المطور: متاح من خلال منصة المطور كلود عبر Anthropic API لإعداد الفواتير على أساس الاستخدام.
نوع الاستخدام سعر
رموز الإدخال 5 دولارات لكل مليون رمز
رموز الإخراج 25 دولارًا لكل مليون رمز
  • المنصات السحابية: يتم تقديمه من خلال كبار موفري الخدمات السحابية مثل Cursor وWindsurf الذين يدمجون النماذج البشرية لاستخدام المؤسسات والمطورين.
كلود أوبوس 4.6 متاح على المؤشر
تظهر واجهة المؤشر أوبوس 4.6

السعر هو نفسه كما كان بالنسبة لـ Claude Opus 4.5. ولكن هنا يمسك! الرموز المستهلكة هي ما يقرب من 5 مرات أكثر مما كانت عليه في Opus 4.5. وعلى الرغم من أن التكلفة هي نفسها، إلا أنه عند الاستخدام، سيكون Claude Opus 4.6 API أكثر تكلفة.

وضعه للاختبار

كل الكلمات الطيبة عن Opus لن تكون ذات جدوى، إذا فشل أدائها في حالات الاستخدام في العالم الحقيقي. ولاختباره، سأقوم بتقييم مدى استجابته لأربعة أنواع من الاستفسارات. تم تصميم الاستعلامات لاختبار:

  1. التخطيط متعدد الخطوات وسير العمل على نمط الوكيل
  2. إعادة هيكلة التعليمات البرمجية على نطاق واسع وهندسة الميزات
  3. المنطق الخوارزمي في ظل قيود العالم الحقيقي
  4. تصحيح الأخطاء على مستوى النظام وتشخيص الأخطاء

سير عمل الوكيل متعدد الخطوات

يقيس هذا الاختبار القدرة على التخطيط والتفكير طويل المدى.

Build a small SaaS analytics dashboard. Take the following things into consideration.

Break this into phases:

• Requirements gathering
• System design
• Database schema
• Backend API design
• Frontend architecture
• Deployment plan

For each phase:

1. Produce concrete deliverables
2. Identify risks
3. Propose mitigation strategies

At the end, summarize the full execution roadmap.

إجابة:

لون لي معجب! بالنسبة للوقت الذي استغرقه إنشاء واحدة، فهذه لوحة تحكم عالية الجودة حقًا. إنه تفاعلي وله تصميم سريع الاستجابة. بالنسبة للمفاهيم والنماذج الأولية، يمكن أن تكون هذه الوظيفة مفيدة.

إعادة بناء الكود وتوسيع الميزات

يتحقق هذا الاختبار مما إذا كان بإمكان Opus فهم التعليمات البرمجية القديمة الفوضوية وإعادة تصميمها وتوسيعها بميزات على مستوى الإنتاج. لقد أرفقت رمزًا فوضويًا يحتوي على الكثير من الأخطاء لمعرفة عدد الأخطاء التي يمكن تصحيحها بواسطة النموذج.

Refactor this project into a clean, production-ready architecture and add the following features:

1. JWT-based authentication
2. Password hashing and validation
3. Structured logging
4. Persistent database storage (replace the current file system logic)
5. REST API interface
6. Unit tests for core functionality

Constraints:

• Follow clean architecture principles
• Eliminate global state
• Add proper error handling and input validation
• Document your architectural decisions

Use the attached code.

إجابة:

استغرق هذا طويل جدًا. طويلة بما يكفي لتحثني على هذا:

هل تريد أن يتم إعلامك عندما يستجيب كلود؟

ولكن كان الانتظار تماما يستحق كل هذا العناء. كان الكود شاملاً وعمليًا ومستوفيًا لكل المعايير التي وضعتها في الموجه. وقدمت عددًا من الملفات كل منها يفي بغرض ما. كان الكود معياريًا وموثقًا جيدًا وملف الهندسة المعمارية يوضح المشروع بطريقة مفهومة.

المنطق الخوارزمي في ظل القيود

يقوم هذا الاختبار بتقييم التفكير العميق وتحليل المفاضلة وجودة التنفيذ.

Design and implement an efficient system to detect duplicate files across millions of records.

Requirements:

• Files may be partially corrupted
• Memory is limited to 2GB
• The system must scale horizontally
• Provide time and space complexity analysis
• Include a working Python prototype
• Explain your design step by step and justify tradeoffs.

Explain your design step by step and justify tradeoffs.

إجابة:

قدمت Opus مقالًا في الوقت الذي يستغرقه فتح معالج النصوص. كان النموذج الأولي للتصميم سليمًا وكانت المراحل تغطي المكونات الفردية بوضوح. وكانت مبررات المكونات المختلفة في النظام مقبولة.

تصحيح أخطاء نظام ويندوز

يفحص هذا الاختبار استكشاف الأخطاء وإصلاحها بشكل منظم والتفكير التشخيصي في العالم الحقيقي.

My Windows PC has been experiencing intermittent freezes and crashes for about a month.

Symptoms:

• Random system freezes during normal use
• Occasional Blue Screen of Death (BSOD)
• Chrome tabs frequently crash with memory errors
• The system suddenly stopped booting entirely
• After removing one RAM stick, the PC boots again
• With the remaining RAM stick installed, instability still occurs

I suspect a hardware or memory-related issue.

Provide a structured troubleshooting plan that includes:

1. Likely root causes ranked by probability
2. Step-by-step diagnostic tests to isolate the issue
3. Recommended Windows tools and third-party utilities
4. Hardware checks and stress tests
5. A clear decision tree for repair or replacement

Explain your reasoning at each stage.

إجابة:

مدهش! هذه إحدى المشكلات التي كنت أواجهها خلال الأسابيع القليلة الماضية ولم أتمكن من حلها بغض النظر عما حاولت. لم يساعد الاطلاع على منتديات Reddit وخيوط LTT كثيرًا. كان الرد الذي قدمه كلود أوبوس مفيدًا جدًا. لم يلخص هذا فقط كل ما مررت به خلال الأسابيع القليلة الماضية فحسب، بل صنفه أيضًا بناءً على احتمالية كونه السبب الجذري للمشكلة. كانت الإجابة مبنية على الحقيقة والأوامر التي تلت ذلك كانت مفيدة بالفعل.

للمهووسين!

إذا كنت مهتمًا بالأداء عبر معايير الذكاء الاصطناعي، فإن ما يلي سيساعدك:

أرقام عالية عبر معظم المعايير المنطقية والجينية مقارنة بالنماذج الحديثة الأخرى. لا توجد ميزة واضحة على سابقتها فحسب، بل هناك فرق كبير في القدرات مقارنة مع معاصريها. مزيد من ترسيخ مكانتها في عرش البرمجة والاستدلال.

إذا كنت مهتمًا بمزيد من المعايير أو لديك فضول بشأن أدائها على معيار محدد، فاقرأ صفحة التقييمات الرسمية للنموذج.

خاتمة

هل كان الأمر يستحق كل هذا الضجيج؟ ومن حيث الترميز والمنطق، أثبت كلود مرة أخرى أن لها تقدمًا واضحًا. لقد ساعد Opus 4.6 في توسيع هذا التقدم بشكل أكبر. من خلال تنفيذ التعليمات البرمجية بأسلوب وضع الحماية، والقدرة على العمل على مشاريع بأكملها في وقت واحد وقدرات التفكير التكيفي لتحسين استهلاك الرمز المميز استنادًا إلى عبء العمل، يقدم كلود أكثر من مبرمج جيد!

لقد تم تحسين نظام Claude البيئي بأكمله لاستيعاب هذا الوافد الجديد، وأحدث طراز قادر على تحقيق أقصى استفادة من هذه الوظائف المضافة.

الأسئلة المتداولة

س1. ما هو Claude Opus 4.6 وما الذي يجعله مختلفًا عن النماذج السابقة؟

ج: إنه أحدث نموذج رئيسي لشركة Anthropic يركز على البرمجة والتفكير المتقدم، ويقدم تخطيطًا أقوى متعدد الخطوات ونافذة سياق أكبر بكثير.

س2. كيف يمكن للمستخدمين الوصول إلى Claude Opus 4.6 وما هي تكلفته؟

ج: إنه متاح من خلال اشتراكات Claude المدفوعة وAnthropic API مع التسعير القائم على الاستخدام لرموز الإدخال والإخراج.

س3. كيف يتم تقييم كلود أوبوس 4.6 في النص؟

ج: يتم اختباره على إعادة البناء، والتفكير الخوارزمي، وتخطيط المشروع متعدد الخطوات، واستكشاف أخطاء نظام Windows وإصلاحها.

فاسو ديو سانكريتيايان

أنا متخصص في مراجعة وتحسين الأبحاث المستندة إلى الذكاء الاصطناعي والوثائق الفنية والمحتوى المتعلق بتقنيات الذكاء الاصطناعي الناشئة. تشمل خبرتي التدريب على نماذج الذكاء الاصطناعي، وتحليل البيانات، واسترجاع المعلومات، مما يسمح لي بصياغة محتوى دقيق تقنيًا ويمكن الوصول إليه.

قم بتسجيل الدخول لمواصلة القراءة والاستمتاع بالمحتوى الذي ينظمه الخبراء.


Source link

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى