ChatGPT Image 1.5 مقابل Nano Banana Pro: AI Image Showdown

مع أحدث طراز من ChatGPT الذي اجتاح العالم، ربما تتساءل عن الحرس القديم: Nano Banana Pro. من خلال إضفاء طابع احترافي على إنشاء الصور وتحريرها لجميع المستخدمين، تعد Nano Banana هي الأداة التي يصل إليها الأشخاص لإنشاء صور مدعومة بالذكاء الاصطناعي.

ولكن هل هذا لا يزال صحيحا؟ فهل سيكون هذا هو الحال في المستقبل؟ سنكتشف ذلك في هذه المقالة، حيث قمنا باختبار أحدث التكرارات لـ ChatGPT Image وNano Banana عبر المهام الصعبة، لمعرفة أي منها يحقق نتائج جيدة.

ما هي صورة GPT 1.5؟

ChatGPT Image 1.5 هو أحدث نموذج لتوليد الصور من OpenAI، وهو مصمم لتحويل الأفكار إلى صور مرئية بسرعة ودقة. سواء كان شخص ما يقوم بالإنشاء من مطالبة فارغة أو يقوم بتحرير صورة موجودة، فإن النموذج يقدم نتائج تتطابق بشكل وثيق مع الرؤية المقصودة. وهو يدعم التعديلات الدقيقة مع الحفاظ على التفاصيل الدقيقة ويولد صورًا تصل إلى 4x أسرع من الإصدارات السابقة.

يأتي النموذج مزودًا بتجربة صور جديدة داخل ChatGPT، والتي تتيح إنشاء الصور وتحسينها بسهولة.

ما هو نانو الموز برو؟

يقدم Nano Banana Pro ترقية كبيرة عن Nano Banana الأصلي، مما يضيف عرضًا متقدمًا للنص للحصول على نص واضح على الصورة، وعناصر تحكم دقيقة في التحرير للإضاءة وزاوية الكاميرا ونسبة العرض إلى الارتفاع، ووضوح 2K مخرجات الدقة، وتحسين المعرفة العالمية للحصول على مخططات ورسوم بيانية دقيقة، والقدرة على دمج المزيد من الصور بسلاسة. إنه يأخذ كل ما كان النموذج الأساسي جيدًا فيه ويرفعه للعمل الإبداعي الاحترافي عالي الجودة.

اقرأ المزيد: نانو الموز برو

المواجهة: دعونا نصنع بعض الصور

تم تطوير نماذج إنشاء الصور هذه للبدء بها. إن اختبار مدى نجاحهم في صنع الشعارات والأشياء المحشوة، سيكون بمثابة لعبة أطفال بالنسبة لهم، ولن يكون اختبارًا جيدًا لقدراتهم المحسنة.

ولذلك، سأختبرها في المهام المعقدة التالية:

المهمة 1: تحرير الصور متعدد الخطوات مع الحفاظ على الحالة

ماذا يختبر هذا: ما إذا كان النموذج يمكنه الحفاظ على هوية المشهد وتماسك الإضاءة وموضع الكائن عبر عمليات التحرير المتعددة. تعمل معظم النماذج على تدهور الصورة أو “إعادة ضبطها” عند تكديس التعديلات.

لقد استخدمت الصورة التالية كمدخل:

الآن سأقوم بإجراء التعديلات عليه بشكل تدريجي، وسأحكم على مدى جودة النموذج في الحفاظ على سلامة الصورة.

تغيير وقت النهار من الليل إلى النهار.

استبدل الأريكة بمجموعة أرائك خشبية.

اضبط زاوية الكاميرا على المنظور من المساحة المفتوحة بالخارج. من الأبواب الزجاجية الظاهرة في الصورة تنظر إلى داخل الغرفة.

ملاحظة:

أنتج Nano Banana Pro مخرجات أفضل مقارنة بـ ChatGPT Image 1.5. يتم توضيح ذلك من خلال الأخطاء التالية في صور استجابة ChatGPT:

ومع التغيير من الليل إلى النهار، تغيرت خلفية المباني عن الخلفية الأصلية.
عند استبدال الأريكة بمجموعة أريكة خشبية، تم تغيير هيكل الطاولة المركزية.

فشل كلا النموذجين في إنتاج صورة مقنعة في منتصف الطريق في المهمة الأخيرة.

وهنا الجزء الممتع: تم إنشاء صورة الإدخال بواسطة صورة ChatGPT نفسها! ولكن مع ذلك انتهى الأمر بأداء ضعيف في المهام.

المهمة 2: اتباع التعليمات الكثيفة في موجه واحد

ماذا يختبر هذا: الطاعة السريعة في ظل القيود، ودقة عرض النص، والتخطيط التركيبي. غالبًا ما تحصل النماذج على تفاصيل واحدة أو اثنتين بشكل صحيح وتتجاهل الباقي.

قم بإنشاء ملصق لمؤتمر تقني باستخدام:
1. ثلاثة متحدثين، لكل منهم ملابس وعمر وعرق مميز
2. وضع الاسم بدقة تحت كل شخص
3. لوحة ألوان محددة تقتصر على أربعة ألوان
4. خلفية تشير بمهارة إلى الذكاء الاصطناعي دون استخدام رموز واضحة مثل الروبوتات أو العقول

إجابة:

ملاحظة:

حيث قام Nano Banana Pro بإنشاء ملصق يمكن استخدامه للترويج لمؤتمر تقني، فإن مخرجات ChatGPT Image تبدو أشبه بجهد مبتدئ في Photoshop.

المهمة 3: رسم تخطيطي فني بدقة واقعية

ماذا يختبر هذا: المعرفة العالمية والمنطق التخطيطي والتفكير المكاني والنص المقروء. هذا هو المكان الذي تفشل فيه النماذج “الجميلة” بشدة إذا لم تفهم البنية فعليًا.

قم بإنشاء مخطط معلوماتي مسمى يشرح كيفية معالجة نموذج اللغة القائم على المحولات للنص، بما في ذلك:
1. الترميز
2. طبقات الانتباه
3. التضمين
4. احتمالات الإخراج
يجب أن تكون كافة التسميات قابلة للقراءة ووضعها بشكل صحيح.

إجابة:

ملاحظة:

كان لكل من الرسوم البيانية نصيبها العادل من العيوب. كان Nano Banana Pro أفضل نسبيًا. كانت الأخطاء قليلة وقليلة، وكانت العناصر المرئية في محلها، وكان هناك مزيج جيد من النص فيه. هذا جعل من السهل المرور. اتخذت ChatGPT Image 1.5 المسار البصري البحت. ولكن بالنظر إلى الخطوة المتكررة (الرابعة) والمرئيات غير المبررة، سيكون من الصعب على أي شخص أن يستوعب ما تمت مشاركته.

المهمة 4: تناسق النمط عبر صور متعددة

ماذا يختبر هذا: ثبات هوية الشخصية والاستمرارية الأسلوبية. هذه واحدة من أصعب المشاكل في توليد الصور في الوقت الحالي.

قم بإنشاء قصة مصورة من ثلاث صور لفيلم قصير:
الإطار الأول: المشهد الافتتاحي
الإطار 2: الصراع
الإطار 3: القرار
يجب أن تظهر نفس الشخصية في جميع الإطارات الثلاثة بملامح وجه وملابس ونسب متسقة، مع تغيير زوايا الإضاءة والكاميرا.

إجابة:

ملاحظة:

إليك ما تعنيه القصة المصورة:

سلسلة من الرسومات، عادةً مع بعض التوجيهات والحوار، تمثل اللقطات المخططة لإنتاج فيلم أو تلفزيون.

عندما طلبت القصة المصورة، أردت بعض التوجيهات إما ضمنيًا في الصورة أو مكملة بها. لقد حشرت استجابة ChatGPT Image 1.5 كل شيء في صورة واحدة، وهو ما كان في حد ذاته لطيفًا.

لم يقدم Gemini Pro صورًا متعددة تظهر الاتجاه فحسب، بل أضاف نصًا إضافيًا، مما يبرر الانتقال عبر الصور. استجابة جيدة جدا.

المهمة 5: الواقعية مقابل المقايضة بين الاتجاه الفني

ماذا يختبر هذا: عرض التفاصيل الدقيقة ووضوح النص والواقعية المادية والقدرة على تحقيق التوازن بين الإضاءة الفنية والدقة التجارية.

قم بإنشاء لقطة منتج لساعة ذكية:
1. يبدو واقعيًا بما يكفي لموقع التجارة الإلكترونية
2. يستخدم الإضاءة الدرامية على غرار الاستوديو
3. يتضمن نصًا محفورًا على القرص يظل حادًا وقابلاً للقراءة
4. يحافظ على الانعكاسات الصحيحة وخواص المواد

إجابة:

ملاحظة:

قام Nano Banana Pro بعمل صورة تشبه لقطة الكشف عن الساعة الذكية. قامت ChatGPT Image بإنشاء ساعة تناظرية باسم ساعة ذكية، وبدلاً من التصميم الذي يتحدث عن الذكاء، أضافت بشكل صارخ “Smartwatch” عبر حافة الساعة.

الحكم

فيما يلي بعض الأشياء التي أدركتها أثناء استخدام نموذجي إنشاء الصور:

الشيء الوحيد الذي كان واضحًا هو أن Nano Banana Pro أسرع بكثير من ChatGPT Image 1.5. وقد تم التأكيد على وقت الانتظار هذا عندما كانت المطالبات معقدة أو متعددة المستويات.
واجهة الصور الخاصة بـ ChatGPT بها الكثير من الأخطاء. في بعض الأحيان يعمل بشكل لا تشوبه شائبة، وتنسى أنه موجود. وفي أحيان أخرى، سيكون من الصعب عليك حتى الحصول على صورة مصنوعة منه. التفاوت في الخبرة مذهل.
تقتصر صورة ChatGPT لما تقدمه على استجابة صورة واحدة. من المهام 4 كان من الواضح أنه عندما يكون المتطلب عبارة عن صور متعددة أو متعددة المستويات، فإن استجابات ChatGPT Image 1.5 تكون مسطحة. أي مستوى من الهندسة السريعة المعقدة لن يجعل النموذج ينبثق أكثر من صورة واحدة.
من الواضح أن Nano Banana Pro ليس لديه هذه القيود.

مع كل هذه الأمور في متناول اليد، سيكون من الآمن أن نقول إن Nano Banana Pro، لا يزال يحتفظ بتلك الميزة التي جعلته سائدًا في المقام الأول. حيث تقدم صورة ChatGPT 1.5 تطورات في العناصر المرئية النصية، فإن أدائها في جوانب أخرى يترك الكثير مما يمكن توقعه.

إذا كنت ترغب في معرفة المزيد حول المطالبة عبر هذه النماذج، فيمكنك إلقاء نظرة على المقالات التالية:

الأسئلة المتداولة

س1. ما هي صورة ChatGPT 1.5؟

A. ChatGPT Image 1.5 هو أحدث نموذج لإنشاء الصور من OpenAI والذي يحول المطالبات أو الصور الموجودة إلى عناصر مرئية بدقة عالية وسرعات إنشاء أسرع وتحرير تفصيلي مع الحفاظ على اتساق الصورة.

س2. ما الذي يجعل Nano Banana Pro مختلفًا عن الإصدارات السابقة؟

ج: يضيف Nano Banana Pro عرضًا متقدمًا للنص، وتحكمًا دقيقًا في الإضاءة وزوايا الكاميرا، ومخرجات بدقة 2K، ومعرفة عالمية أقوى، وتكوين أفضل للصور المتعددة للعمل الإبداعي الاحترافي.

س3. ما هي الأداة التي كان أداؤها أفضل في مهام الصور المعقدة؟

ج: تفوقت Nano Banana Pro باستمرار على ChatGPT Image 1.5 من حيث السرعة والتحرير متعدد الخطوات والمرئيات ذات النصوص الثقيلة والاتساق متعدد الصور، بينما عانت ChatGPT Image من المطالبات المعقدة وموثوقية الواجهة.

أنا متخصص في مراجعة وتحسين الأبحاث المستندة إلى الذكاء الاصطناعي والوثائق الفنية والمحتوى المتعلق بتقنيات الذكاء الاصطناعي الناشئة. تشمل خبرتي التدريب على نماذج الذكاء الاصطناعي، وتحليل البيانات، واسترجاع المعلومات، مما يسمح لي بصياغة محتوى دقيق تقنيًا ويمكن الوصول إليه.

قم بتسجيل الدخول لمواصلة القراءة والاستمتاع بالمحتوى الذي ينظمه الخبراء.

Source link

ما هي صورة GPT 1.5؟

ما هو نانو الموز برو؟

المواجهة: دعونا نصنع بعض الصور

المهمة 1: تحرير الصور متعدد الخطوات مع الحفاظ على الحالة

المهمة 2: اتباع التعليمات الكثيفة في موجه واحد

المهمة 3: رسم تخطيطي فني بدقة واقعية

المهمة 4: تناسق النمط عبر صور متعددة

المهمة 5: الواقعية مقابل المقايضة بين الاتجاه الفني

الحكم

الأسئلة المتداولة

قم بتسجيل الدخول لمواصلة القراءة والاستمتاع بالمحتوى الذي ينظمه الخبراء.

بحث الذكاء الاصطناعي وصفقات الناشرين والمزيد • Yoast

عاد مدير الجلسة التاسعة براد أندرسون بمقطع دعائي جديد لفيلم Worldbreaker

مقالات ذات صلة

الذكاء الاصطناعي مقابل الذكاء الاصطناعي التوليدي

تثبيت البيانات وتوصيلها وإدارتها

إطار التنسيق للأتمتة متعددة العوامل

أفضل 7 دورات SQL مجانية مع شهادات

اترك تعليقاً إلغاء الرد