الذكاء الاصطناعي

Z.ai تكشف عن GLM-4.6V الجديد: هل يجب عليك استخدامه؟

يستمر السباق للحصول على “أفضل نموذج للذكاء الاصطناعي”، حيث تعد شركة Z.ai هي أحدث شركة تسجل دخولها بنموذج جديد ومتطور. أطلق عليها اسم GLM-4.6V، وقد ركزت Z.ai على الإشارات المرئية والتمثيل مع هذا الجهاز. ومن هنا يأتي حرف “V” في نهاية اسمه والذي يشبه الطراز الرئيسي الموجود من قبل الشركة GLM-4.6 (اقرأ كل شيء عنه هنا).

لذا، بالطبع، هذا ليس مجرد نموذج دردشة آخر. فهو يرى الصور، ويفهم المخططات، ويكتب التعليمات البرمجية، وحتى الأسباب مثل زميل حقيقي في الفريق يهتم بالفعل. والجزء الممتع – لا يتطلب الأمر أي إعداد ضخم لاستخدامه. يتوفر GLM-4.6V بالفعل على محادثات Z.ai، مع توفر إصدار أخف للنشر المحلي والتطبيقات ذات زمن الوصول المنخفض.

في هذه المدونة، سنستكشف ما يحمله جهاز GLM-4.6V الجديد معه، وما إذا كان مميزًا بما يكفي لاستخدامه أم لا. سنحاول العثور على هذه الإجابات بناءً على اختبار عملي للنموذج الجديد. لذلك، دعونا ننتقل مباشرة ونستكشف GLM-4.6V الجديد من Z.ai هنا.

الميزات الرئيسية لـ Z.ai GLM-4.6V

فيما يلي بعض الميزات الرئيسية لجهاز GLM-4.6v الجديد.

1. يفهم المستندات المعقدة (محتوى النص المنسق)

أعطه ملف PDF، أو ورقة بحثية، أو صفحة مليئة بالصور والجداول والصيغ، وسيقرأها GLM-4.6V كلها مثل خبير بشري. وهذا يعني أنه لا يرتبك بسبب المحتوى المختلط ويمكنه أيضًا إنشاء مستندات جديدة تجمع بين النص والصور بشكل مثالي.

باختصار: إذا كان مستندك يبدو فوضويًا للغاية، فلا يزال بإمكان هذا النموذج قراءته بوضوح وكتابة نسخة أكثر وضوحًا لك.

2. يقوم بإنشاء محتوى غني بالصور تلقائيًا

يمكنه إنشاء منشورات وتقارير ومقالات مرئية تتضمن نصوصًا وصورًا. ولهذا السبب، تم تدريب النموذج بما يكفي ليحدد تلقائيًا المكان الذي تناسب فيه الصور بشكل أفضل. يعد هذا أمرًا رائعًا للتسويق أو البرامج التعليمية أو المحتوى الاجتماعي.

باختصار: تكتب أقل > يتم تنسيقه بشكل أفضل > يبدو أن مخرجاتك جاهزة للنشر.

3. يبحث في الويب باستخدام الصور

أظهر له صورة أو لقطة شاشة، ويمكنه البحث عبر الإنترنت للعثور على المعلومات ذات الصلة. يساعد ذلك في العثور على روابط المنتج المناسبة أو المنافسين أو تفاصيل العلامة التجارية أو المزيد من الصور. فهو يجمع بين ما يراه وما يعرفه.

باختصار: التقط لقطة شاشة > اسأل أي شيء > وستجد إجابات حقيقية من الإنترنت.

4. يحول لقطات شاشة واجهة المستخدم إلى رمز العمل

قم بتحميل لقطة شاشة لصفحة ويب أو واجهة مستخدم للجوال، ويمكن لـ GLM-4.6V إنشاء HTML/CSS/JS نظيف لها. يمكنك تمييز الأجزاء بشكل فردي وإخبار النموذج بتعديلها، ويقوم بتحديث الكود على الفور.

باختصار: التصميم > لقطة الشاشة > الكود. ليست هناك حاجة إلى مهارات الواجهة الأمامية على الإطلاق.

5. يتذكر المدخلات الطويلة (سياق الرمز المميز 128 ألفًا)

يمكنك تغذية ملفات PDF ضخمة وشرائح متعددة الصفحات وملاحظات بحثية مطولة إلى GLM-4.6V، كل ذلك في لقطة واحدة. فهو يتتبع المستند بأكمله، ويتذكر المراجع، ويدعم الاستدلال المتعمق. لإعطائك تلميحًا، تذكر Z.ai في مدونتها أن GLM-4.6V يمكنه المرور بدقة عبر “حوالي 150 صفحة من المستندات المعقدة، أو 200 صفحة شريحة، أو مقطع فيديو مدته ساعة واحدة في مسار استدلالي واحد.”

باختصار: بدلاً من تقسيم الملفات إلى أجزاء، ما عليك سوى التحميل مرة واحدة والاستفسار عن أي شيء حول أي جزء.

6. أداء جيد حقًا وفقًا للمعايير القياسية

تم اختبار GLM-4.6V في العديد من المهام مثل الفهم البصري والتفكير المنطقي وقراءة المستندات الطويلة. ومن خلال البيانات التي شاركتها Z.ai، يعد أداء GLM 4.6V من بين أفضل النماذج المفتوحة.

وهو ما يقودنا إلى القسم التالي – ما مدى جودة GLM-4.6V الجديد في المعايير؟

أداء GLM-4.6V القياسي

يسلط الجدول أدناه الضوء على نتائج GLM-4.6V عبر مجموعة واسعة من المعايير. وتشمل هذه التفكير البصري، والتعرف الضوئي على الحروف، والمهام الوكيلة، وفهم السياق الطويل.

أداء GLM-4.6V القياسي

في كل فئة رئيسية تقريبًا، يحقق GLM-4.6V درجات أعلى أو يظل قريبًا جدًا من أفضل النماذج المتاحة اليوم، خاصة عندما يتعلق الأمر بالتفكير في الصور، وتحويل تصميمات واجهة المستخدم إلى تعليمات برمجية، وقراءة المستندات ذات المحتوى المختلط. كما توفر نسخة Flash الأصغر الخاصة بها دقة مذهلة مع الحفاظ على وزنها الخفيف، مما يجعلها خيارًا عمليًا لعمليات نشر أسرع وبأسعار معقولة.

باختصار، يوفر GLM-4.6V دقة كبيرة واستدلالًا قويًا وأداءً موثوقًا حتى في المهام المرئية المعقدة. هذا هو بالضبط ما تريده من الجيل التالي من الذكاء الاصطناعي متعدد الوسائط.

الآن دعونا نختبر ذلك في سيناريو حقيقي:

التدريب العملي على GLM-4.6V

لقد اختبرنا GLM-4.6V عبر 3 مهام رئيسية – إنشاء المحتوى، والبحث العميق على الويب، والترميز، بناءً على نقاط قوة النموذج كما حددتها Z.ai. للتعرف على الاختبار ونتائجه:

1. إنشاء المحتوى متعدد الوسائط

اِسْتَدْعَى: قم بالاطلاع على ملف PDF هذا حول خطط Uber’s Elevate الخاصة بمركبات eVTOL. قم بإنتاج مقالة من 500 كلمة تشرح فيها المفهوم بأكمله، حيث يتم عرض كل ما هو مقترح للنشر، وكيف ستستفيد منه، وقيوده، إن وجدت. أكمل المقالة برسم تخطيطي واحد أو اثنين يشرح المفهوم، وتمثيل مرئي لجميع المدن التي تم تحديدها للتجربة في المستقبل

الإخراج:

خذنا:

كان النموذج قادرًا على استخراج المعلومات الصحيحة من ملف PDF الشامل وتأطير مقالة دقيقة بناءً عليها، تمامًا كما هو موضح في التعليمات. لاحظت وجود انحراف طفيف في مخطط eVTOL الذي أعدته، والذي لم يتطابق مع أي من التصميمات التي شاركتها Uber في ورقتها البيضاء. أما بقية الإنتاج فكان جيدًا جدًا.

اِسْتَدْعَى: هل يمكنك التعرف على المسرحية الهزلية التي يعتمد عليها هذا الميم؟

الإخراج:

خذنا:

أخطأ GLM-4.6V في اعتبار الميم عرضًا مختلفًا تمامًا. الميم هو مرجع مشهور من المسرحية الهزلية “ليست أخبار الساعة التاسعة”، وليس “الحمقى والخيول فقط” كما هو مذكور هنا. أعتقد أنه بدلاً من البحث فعليًا عن الصورة، فقد فهم سياق محادثة رجل وغوريلا، وبحث عن أمثلة لنفس الشيء بين العروض الأخرى، مما أدى إلى هذا الناتج.

3. الترميز

اِسْتَدْعَى: بناءً على هذا الموضوع، قم بإنشاء موقع سفر يعرض عروض الأماكن السياحية داخل الهند بدلاً من موديلات الآيفون كما هو موضح هنا. استخدم الصور الفعلية من الإنترنت بدلاً من العناصر النائبة. تغيير لون الخلفية إلى اللون الأزرق الفاتح. في القائمة، احتفظ بثلاثة خيارات فقط – رحلات الطيران والقطارات والفنادق

الإخراج:

خذنا:

يبدو موقع الويب جيدًا جدًا ويشبه إلى حد كبير موقع Apple الذي شاركناه كمرجع. كما نجح النموذج في تصميم بطاقات للوجهات السياحية، مع نص دقيق يتبع كل صورة. الشيء الوحيد الذي فاته هو خيارات القائمة الثلاثة التي ذكرتها على وجه التحديد في الموجه. لذا، ربما لا تكون كلها دقيقة، ولكنها قريبة.

خاتمة

واستنادًا إلى نقاط قوة GLM-4.6V الجديد واختباراتنا العملية، فمن الآمن أن نقول إنه نموذج ذكاء اصطناعي قوي جدًا من Z.ai. إنه قادر على فك رموز المطالبات بشكل جيد وإنتاج مخرجات متعددة الوسائط عالية الجودة للعديد من المهام، بما في ذلك، على سبيل المثال لا الحصر، إنشاء محتوى متعدد الوسائط والبحث على الويب وحتى تشفير واجهات الويب.

بعد قولي هذا، قد ترغب في ملاحظة الانحرافات الطفيفة عن المطالبات في كل حالة استخدام. وهذا يخبرني أن النموذج قد يفتقر إلى الدقة في بعض المهام التي تأتي في طريقه. لذا، إذا كانت لديك مهمة دقيقة للغاية في متناول اليد، فقد ترغب في استخدام نماذج الذكاء الاصطناعي الأخرى. بالنسبة لكل شيء آخر، يبدو أنه يقوم بعمل رائع.

استراتيجي المحتوى الفني ومتواصل يتمتع بخبرة تزيد عن عشر سنوات في إنشاء المحتوى وتوزيعه عبر وسائل الإعلام الوطنية وحكومة الهند والمنصات الخاصة

قم بتسجيل الدخول لمواصلة القراءة والاستمتاع بالمحتوى الذي ينظمه الخبراء.


Source link

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى