الميزات والمقاييس والاختبار العملي

لقد بدأ تطبيق Qwen التابع لشركة علي بابا في الظهور مؤخرًا، حيث أطلق نموذجًا تلو الآخر لحالات الاستخدام المختلفة. على سبيل المثال، قدمت مؤخرًا Qwen3-Coder-Next كمساعد ترميز الذكاء الاصطناعي للمطورين. هذه المرة، ظهر عملاق الذكاء الاصطناعي في الأخبار مرة أخرى لإصداره الأخير – Qwen-2.0-Image. كما يوحي الاسم، يأتي هذا كترقية لنموذج Qwen Image AI الذي يساعد على إضفاء الحيوية على الصور المرئية بقوة الذكاء الاصطناعي. لقد حظي منشئ الصور بتقنية الذكاء الاصطناعي بشعبية كبيرة بالفعل لدى المستخدمين في جميع أنحاء العالم، وذلك بفضل قدرته المشهورة على إنشاء صور فائقة الجودة بدقة. الآن، تعد Qwen-2.0-Image بالمزيد.

كل ما سنستكشفه في هذه المدونة. سنلقي نظرة على ميزاته الجديدة وأدائه المعياري وحتى تجربته في اختبار عملي. لذلك، دون أي مزيد من اللغط، دعونا نتعمق في Qwen-2.0-Image الجديدة كليًا.

ما هي صورة Qwen-2.0؟

أول الأشياء أولاً، ما هو Qwen-2.0-Image بالضبط؟ بالنسبة لأولئك الذين لا يعرفون، Qwen هي عائلة من نماذج اللغات الكبيرة ذات الوزن المفتوح (LLMs)، أو نماذج الذكاء الاصطناعي بشكل أساسي، والتي تم تطويرها بواسطة Alibaba Cloud. Qwen-Image-2.0 هو أحدث إضافة لهذه العائلة. إنه يدخل السباق كمولد صور يعمل بالذكاء الاصطناعي، مما يعني ببساطة تقديم مطالبتك أو وصف الصورة التي ترغب في إنشائها، وسيقوم نموذج الذكاء الاصطناعي بإنشائها لك في ثوانٍ.

الآن، الشيء الذي يجب ملاحظته هنا هو أنه تم وضع Qwen-2.0-Image كنموذج صورة AI مصمم لـ “الرسوم البيانية الاحترافية” والواقعية عالية التفاصيل. من الواضح أن هذا يمتد إلى ما هو أبعد من الصور الجميلة وصور العرض التي يستخدم الأشخاص عادةً الذكاء الاصطناعي لإنشاءها، ويمثل قفزة هائلة من قدرات أي مولد صور عادي يعمل بالذكاء الاصطناعي، على الأقل في المطالبات.

في إصداره الرسمي، يسلط فريق Qwen الضوء على التزام دلالي أقوى ودقة أصلية تبلغ 2K، ويذكر بوضوح مشاهد واقعية مفصلة بدقة، بما في ذلك الأشخاص والطبيعة والهندسة المعمارية. حتى أنه يعد ببنية أخف وأسرع لتكرارات أسرع.

Qwen-2.0-Image: ما الجديد؟

إذا سبق لك استخدام منشئ صور يعمل بالذكاء الاصطناعي (راجع أهمها هنا)، فأنت تعلم أنها (في كل مرة تقريبًا) تميل إلى الانهيار عندما يتعلق الأمر بالرسوم البيانية. في كثير من الأحيان، تحصل على تسلسل هرمي بصري فوضوي ومربك، وكل شيء “مصمم” يبدأ وكأنه تم تجميعه بواسطة متدرب محروم من النوم مع تدرجات غير محدودة.

إن تأطير Qwen-2.0-Image كنموذج أكثر دقة للذكاء الاصطناعي قادر على الرسوم البيانية يعد ادعاءً كبيرًا.. إذا تم تحسينه حقًا لهذا المسار “البصري المنظم”. علاوة على ذلك، إذا كانت لا تزال تدفع الواقعية إلى 2K، فإن Qwen-2.0-Image هو بالتأكيد نموذج يستحق أن نأخذه على محمل الجد. خاصة بالنسبة للمبدعين الذين يحتاجون إلى مخرجات قابلة للاستخدام بالفعل، فقد يأتي هذا النموذج باعتباره النموذج الذي كان الجميع ينتظره.

لذا، إذا كانت الوعود ضخمة، فدعونا نتحقق من الميزات التي توفرها هذه الوعود لمطابقة تلك المطالبات.

Qwen-2.0-Image: ميزات جديدة

إذن، بعيدًا عن هذه الضجة، لماذا يجب على أي شخص أن يهتم حقًا بنموذج Qwen الجديد؟ يجيب فريق Qwen على ذلك بقائمة من الميزات التي تكفي لجذب الانتباه من النظرة الأولى. الق نظرة:

1) عرض الطباعة الاحترافي (أخيرًا، “اختبار المعلومات الرسومية”)

تتقدم المدونة الرسمية بميزة لا تزال معظم نماذج الصور تعاني منها: الطباعة شبه الاحترافية. يدعم Qwen-2.0-Image ما يصل إلى 1k-token تعليمات، خصيصًا حتى تتمكن من إنشاء “رسوم بيانية احترافية” مباشرةً. وهذا يعني مستوى جديدًا تمامًا من الاحترافية مع عروض PPT والملصقات والرسوم الهزلية وغيرها من المتطلبات الإبداعية، كل ذلك في موجه واحد.

يعد هذا أمرًا مهمًا لأن الرسوم البيانية ليست مشكلة “مشهد واحد جميل”. إنها مشكلات تتعلق بالتخطيط + التسلسل الهرمي + التباعد + الاتساق. وإذا كان النموذج قادرًا على اتباع تعليمات طويلة ومنظمة، فهو في الأساس يقول: توقف عن وصف صورة واحدة، وابدأ في وصف صفحة مصممة.

2) الواقعية الشديدة للصور بدقة 2K الأصلية (وليست “مُحسَّنة لاحقًا”)

بعد ذلك، تطالب Qwen-2.0-Image بإخراج دقة أصلية 2K (2048×2048) وتستدعي “التفاصيل المجهرية”. وهذا يعني مستوى جديدًا تمامًا من الواقعية في عناصر مثل مسام الجلد ونسج القماش والأنسجة المعمارية. وهذا يعني أيضًا أداءً قويًا في المشاهد الواقعية التي تشمل الأشخاص والطبيعة والهندسة المعمارية والمزيد.

الكلمة الأساسية هنا أصلية. مما يعني أنه لا يتم وضعه على أنه “إنشاء شيء ما والارتقاء به إلى مستوى الاحترام”. وبدلاً من ذلك، يكون الإخراج الأساسي نفسه عالي الدقة.

3) تحسين عرض النص من خلال نهج “الفهم + الإنشاء” الموحد

الآن، هنا يصبح الأمر مثيرًا للاهتمام: تذكر المدونة الفهم المتكامل وقدرات الإنتاج. قام فريق Qwen بتأطيرها بشكل واضح كوسيلة لتوحيد إنشاء الصور وتحرير الصور في وضع واحد.

بكلمات بسيطة، لا يحاول النموذج رسم نص أفضل فحسب. إنها تحاول التعامل مع النص باعتباره أحد أهم الجوانب داخل سير عمل الصورة.

4) النموذج الأومني الموحد: التوليد + التحرير في نموذج واحد

يصف الإصدار أيضًا نموذج Omni الموحد، أي التوليد + التحرير في نموذج واحد. لقد رأينا ذلك مع Nano Banana Pro، الذي وضع نفسه لأول مرة كنموذج موحد للذكاء الاصطناعي. وعلى نفس المنوال، أصبح Qwen-2.0-Image الآن يضع نفسه على أنه “فهم وتوليد متعدد الوسائط متكامل”، وكل ذلك مدمج في أداة واحدة.

وهذا يعني “تنقل أقل بين الأدوات” أثناء استخدام Qwen-2.0-Image. يمكنك الإنشاء والتعديل والتكرار دون تبديل الأوضاع في كل مرة تريد فيها التعديل.

5) بنية نموذجية أخف للاستدلال الأسرع

أصبح هذا الجانب ذا أهمية متزايدة مع اكتساب استخدام نماذج توليد الصور بالذكاء الاصطناعي زخمًا. تم وضع Qwen-2.0-Image كنموذج أخف، أي بحجم نموذج أصغر مع سرعة استدلال أسرع.

ما زلت لا أفهم سبب الاستهانة بهذه الميزة، حتى مع نماذج الذكاء الاصطناعي الأخرى. فكر في الأمر بهذه الطريقة – إذا تم تصميم النموذج للملصقات/المخرجات الشبيهة بـ PPT، فمن المحتمل أن تستخدمه في الكثير من التعديلات. وتقرر السرعة بشكل مباشر ما إذا كنت ستستمر في التجربة أم ستستسلم وتفتح Canva.

أهنئ فريق التسويق (أو أيًا كان) في Qwen لإظهار هذه الميزات بشكل مباشر. في إعلانه، أدرج الفريق الصور التي أنتجها نموذج الذكاء الاصطناعي، ومن المثير للاهتمام أنها تصور جميع ميزاته. تحقق من الدقة ومستوى التفاصيل الذي يجلبه الإخراج النهائي معه.

في حالة عدم كفاية هذا الدليل، تحقق من الأداء القياسي لـ Qwen-2.0-Image للتعرف على قدراته.

Qwen-2.0-Image: الأداء المعياري

لدعم ادعاءاته، أبلغ فريق Qwen عن نتائج من Alibaba AI Arena، وهي منصة تقييم بشرية عمياء تصنف نماذج الصور باستخدام نظام تصنيف ELO. في هذا الإعداد، تتم مقارنة الصور وجهاً لوجه، ولا يعرف الحكام النموذج الذي أنتج أي مخرجات، ويتم تحديث النتائج بناءً على التفضيل البشري.

كما هو موضح في المدونة الرسمية، يتم تصنيف Qwen-2.0-Image في أعلى قائمة المتصدرين لـ ELO لإنشاء تحويل النص إلى صورة. تظهر لوحة صدارة أخرى لتحرير الصور أنها تتنافس وجهاً لوجه مع بعض أفضل برامج تحرير الصور ذات الذكاء الاصطناعي. يمكنك الاطلاع على النتائج في تصنيف المتصدرين الذي شاركه فريق Qwen هنا.

Qwen-2.0-Image: التدريب العملي

الآن بعد أن أصبحنا على دراية بكل ما تعد به Qwen-2.0-Image على الورق، فقد حان الوقت لوضع ادعاءاتها الطويلة على المحك. ومن أجل ذلك، جربنا 3 مطالبات مختلفة. تحقق من هذه المطالبات والنتائج من خلال نموذج Qwen الجديد هنا –

موجه 1:

أنشئ ملصقًا احترافيًا بأسلوب الرسوم البيانية حول بطولة كأس العالم للكريكيت الجارية في الهند، مع تسليط الضوء على أفضل المتنافسين على اللقب.

النمط الشامل

تصميم انفوجرافيك رياضي نظيف

خلفية بيضاء أو فاتحة مع لمسات ثلاثية الألوان (الزعفران والأبيض والأخضر).

تصميم متوازن، أقسام واضحة، حديث ولكن ليس مبهرجًا

العنوان (أعلى، في المنتصف)

عنوان جريء: “كأس العالم للكريكيت 2023: أبرز المتنافسين على اللقب”

العنوان الفرعي أدناه: “لماذا هذه الفرق هي المفضلة في الهند”

التخطيط الرئيسي
قسم الملصق إلى أربعة أقسام متساوية، قسم لكل فريق:

الهند

أستراليا

انجلترا

نيوزيلندا

لكل قسم من أقسام الفريق، قم بتضمين:

اسم الفريق (العنوان الغامق)

الإحصائيات الرئيسية (نقاط نقطية، نص قابل للقراءة):

الأداء الأخير لكأس العالم

قوة الضرب أو البولينج (خط واحد واضح على غرار الإحصائيات)

الملاءمة للظروف الهندية

تسليط الضوء على نجم اللاعب:

اسم اللاعب (غامق)

سبب من سطر واحد يجعل هذا اللاعب حاسما

رسم توضيحي مبسط للاعب النجم (ليس تصويرًا حقيقيًا، رسمًا رياضيًا نظيفًا)

قسم التذييل

نص صغير: “الإحصائيات والأفكار المستندة إلى العروض الأخيرة”

أيقونات لعبة الكريكيت البسيطة (المضرب، الكرة، الكأس)

قواعد النص والتخطيط

يجب أن يكون كل النص قابلاً للقراءة بوضوح

لا يوجد نص متداخل

نمط خط متسق عبر الفرق

يجب أن يبدو الرسم البياني جاهزًا لموقع ويب رياضي أو شريحة عرض تقديمي

الهدف العام
يجب أن تبدو الصورة النهائية كأنها رسم بياني مصقول لتحليلات لعبة الكريكيت، تجمع بين المظهر المرئي والوضوح الواقعي.

الإخراج:

موجه 2:

التركيز البصري

تركيز حاد على ملمس البشرة والمسام وشعر الوجه الناعم والعيوب الطبيعية

رموش مرئية بوضوح، وخيوط حواجب، وشفافية دقيقة للجلد

ملمس شفاه طبيعي مع خطوط رفيعة، غير لامع أو ناعم للغاية

الإضاءة والمزاج

إضاءة جانبية ناعمة ومنتشرة

ظلال لطيفة تعزز العمق والواقعية

درجات ألوان محايدة وسينمائية (بدون تشبع زائد)

قواعد النمط

تصوير ماكرو واقعي بأسلوب DSLR

لا يوجد تنميق تجميلي، ولا تنعيم صناعي

لا مظهر ثقيل للمكياج؛ لمسة نهائية طبيعية للبشرة

خلفية

غير واضح تمامًا (عمق مجال ضحل)

نغمة داكنة أو محايدة لعزل الموضوع

الهدف العام
يجب أن تبدو الصورة وكأنها لقطة فوتوغرافية احترافية عن قرب، تكشف عن تفاصيل واقعية لجلد الإنسان من مسافة قريبة جدًا.

الإخراج:

موجه 3:

قم بإنشاء منظر طبيعي مذهل على شكل لوحة زيتية كلاسيكية.

مشهد

وادي واسع مع الجبال المغطاة بالثلوج في المسافة

نهر متعرج يعكس السماء

مروج خضراء مورقة مع زهور برية متناثرة في المقدمة

أشجار الصنوبر الطويلة تؤطر المشهد من كلا الجانبين

نمط الفن

أسلوب الرسم الزيتي التقليدي

ضربات فرشاة مرئية وطبقات طلاء مزخرفة

مزيج ناعم في السماء، وضربات إمباستو أكثر سمكًا في المقدمة

الإضاءة والمزاج

ضوء الساعة الذهبية مع أضواء دافئة

السحب الدرامية التي تلتقط ضوء الشمس

جو هادئ ومهيب وحالم قليلاً

لوحة الألوان

اللون الأزرق الغني والبنفسجي الناعم في الجبال

ذهبيات وخضراء دافئة في الوادي

نغمات طبيعية (غير مشبعة بشكل مفرط)

الهدف العام
يجب أن تبدو الصورة النهائية وكأنها لوحة زيتية ذات جودة متحفية، تستحضر الحجم والصفاء والجمال الطبيعي.

الإخراج:

خاتمة

نظرة واحدة على المخرجات المنتجة، ومن الآمن أن نقول إن هذه هي بعض من أفضل الصور التي رأيتها على الإطلاق تنتجها نماذج الذكاء الاصطناعي. بالنسبة للموجه الأول، تمكنت Qwen-2.0-Image من إنشاء مخطط معلومات بياني بسيط ولكنه ذو مظهر احترافي، مكتمل بالمعلومات المطلوبة. وعلى الرغم من أن المعلومات المكتوبة داخله خاطئة (وآخر لاعب يلعب بمضرب تنس بدلاً من مضرب الكريكيت) فإنني لن أحكم عليه كنموذج بناءً على مثل هذه الأخطاء التافهة في نتيجة شاملة جيدة جدًا. بالطبع، يمكنك إجراء تعديلات لإصلاح هذه المشكلات في مطالبات المتابعة أيضًا. هنا، كنت أرغب في التمسك بالمخرج الأصلي لتحقيق أقصى قدر من الشفافية.

الصورة الثانية هي إخراج الانفجار على الهدف. إنها تتبع كل التعليمات وتبدو واقعية جدًا لدرجة أنني أشك بشدة في أن أي شخص يستطيع أن يقول إنها صورة تم إنشاؤها بواسطة الذكاء الاصطناعي. تعليقات مماثلة للصورة الثالثة.

بشكل عام، في هذه المقالة، اكتشفنا الجديد في Qwen-2.0-Image، وما يعد به على الورق، وكيف يقدمه في العالم الحقيقي. لتلخيص التجربة بأكملها، أود بالتأكيد أن أوصي بـ Qwen-2.0-Image باعتباره منشئًا ومحررًا للصور يعمل بالذكاء الاصطناعي يجب تجربته. وبالنسبة لأي شخص يبحث عن رسومات احترافية ومضمنة بالنصوص، فمن المؤكد أن Qwen-2.0-Image سيكون المفضل لديك الجديد.

استراتيجي المحتوى الفني ومتواصل يتمتع بخبرة تزيد عن عشر سنوات في إنشاء المحتوى وتوزيعه عبر وسائل الإعلام الوطنية وحكومة الهند والمنصات الخاصة