الذكاء الاصطناعي

نموذج أي شيء للقطاع 3 (SAM3): مراجعة عملية

لقد عادت معالجة الصور إلى الظهور من جديد مع إصدارات مثل Nano Banana وQwen Image، مما أدى إلى توسيع حدود ما كان ممكنًا في السابق. لقد قطعنا شوطا طويلا من وجود عدد خاطئ من الأصابع والأخطاء المطبعية في النص. يمكن لهذه النماذج إنتاج صور ورسوم توضيحية واقعية تحاكي عمل المصمم. أحدث إصدار من Meta، SAM3، موجود هنا لتقديم مساهمته الخاصة في هذا النظام البيئي. ومن خلال اتباع نهج موحد للكشف والتجزئة والتتبع، فإنه يجلب البنية والفهم للمحتوى المرئي بدلاً من إنشائه فقط.

ستوضح هذه المقالة ماهية SAM3، ولماذا تحدث ضجة في الصناعة، وكيف يمكنك الحصول عليها.

ما هو سام3؟

SAM3 أو Segment Anything Model 3 هو نموذج رؤية حاسوبية من الجيل التالي لتجزئة الصور ومقاطع الفيديو وتتبعها، والذي يأخذ نصًا أو مطالبات (مثل مثال الصورة) بدلاً من مجرد تسميات فئة ثابتة. هذا هو اكتشاف الكائنات واستخراجها الذي يعتمد على الكشف المدعوم بالذكاء الاصطناعي. في حين أن النماذج الحالية يمكنها تقسيم المفاهيم العامة مثل الإنسان والجدول وما إلى ذلك. يمكن لـ SAM3 تقسيم المفاهيم الأكثر دقة مثل “الرجل ذو القميص الأناناس”.

يتغلب SAM3 على القيود المذكورة أعلاه باستخدام إمكانية تجزئة المفهوم السريعة. يمكنه العثور على أي شيء تطلبه في صورة أو مقطع فيديو وعزله، سواء قمت بوصفه بعبارة قصيرة أو عرض مثال، دون الاعتماد على قائمة ثابتة من أنواع الكائنات.

كيفية الوصول إلى SAM3؟

فيما يلي بعض الطرق التي يمكنك من خلالها الوصول إلى نموذج SAM3:

ملعب/عرض توضيحي على الويب: هناك واجهة ويب “Segment Anything Playground”، حيث يمكنك تحميل صورة أو مقطع فيديو، وتقديم مطالبة نصية (أو نموذج)، وتجربة وظائف التجزئة والتتبع في SAM 3.

أوزان النموذج + الكود على GitHub: يتضمن المستودع الرسمي من Meta Research (facebookresearch/sam3) تعليمات برمجية للاستدلال والضبط الدقيق، بالإضافة إلى روابط لتنزيل نقاط التفتيش النموذجية المدربة.

محور نموذج الوجه المعانق: النموذج متاح على Hugging Face (facebook/sam3) مع الوصف، وكيفية تحميل النموذج، ومثال لاستخدام الصور/مقاطع الفيديو.

يمكنك العثور على طرق أخرى للوصول إلى النموذج من صفحة الإصدار الرسمية لـ SAM3.

التنفيذ العملي لSAM3

دعونا الحصول على أيدينا القذرة. لمعرفة مدى جودة أداء SAM3، سأقوم باختباره عبر المهمتين:

  1. تجزئة الصورة
  2. تجزئة الفيديو

تجزئة الصورة

في حين أن معظم الأشخاص سيحاولون اكتشاف أنواع مختلفة من الكائنات داخل الصورة، فقد اعتقدت أنه سيكون من الأفضل أن أحاول استخدامها في عبء عمل أكثر عملية. لذا، بالنسبة لهذه المهمة، سأقدمها بصورة تتكون من مجموعة من الجداول، لنرى مدى جودة التعرف عليها وتمييزها. هذه إحدى المهام الأكثر استخدامًا لمعالجات الصور.

صورة الإدخال:

إجابة:

تلقيت الرد التالي بعد الدخول الجداول في كائنات المراجعة صندوق.

مربع محيط حول الطاولات

تمكن النموذج من إنشاء مربع محيط حول كافة الجداول الموجودة في الصورة. يعرض الجداول الثلاثة في شكل 3 كائنات، والتي يمكننا تسميتها وتعديلها بشكل منفصل. ولكن هذا ليس هو. يمكننا أيضًا إضافة تأثيرات مختلفة على الكائنات التي تم التعرف عليها في الصورة. وفي الصورة التالية قمت بإضافة طمس تأثير:

طمس في خلفية الجداول

يمكنك أيضًا تعديل شدة هذه التأثيرات، باستخدام إعدادات التأثير بجوار اسم التأثير مباشرةً.

تجزئة الفيديو

بالنسبة لتجزئة الفيديو، سأختبر مدى نجاح النموذج في تتبع البشر عبر ملعب كرة القدم، حيث تتغير زوايا الكاميرا للتكبير وفقًا لذلك. للتوضيح، سأستخدم هذا المقطع لهدف ليونيل ميسي:

إجابة:

تلقيت الرد التالي بعد أن قدمت الكائن كـ لاعب:

تم تسليط الضوء على جميع اللاعبين في الملعب - تجزئة الفيديو

بالنظر إلى الوصف العام للكائن، فمن المفهوم أن النموذج قام بتمييز جميع اللاعبين في المقطع. ولكن هنا تكمن المشكلة. لا توجد طريقة لتمييز لاعب واحد!

حاولت استخدام الأوصاف الوصفية مثل “المراوغ” و”المهاجم” و”الجناح” وغيرها الكثير، ولكن الوصف الوحيد الذي قدم نتائج مرضية هو لاعب. وبمجرد اختيار اللاعبين، لا توجد طريقة لإزالتهم من القائمة. وهذا أمر غريب، كما هو الحال في مهمة تجزئة الصورة، استخدمت أداة ROI (في الجزء العلوي الأيمن من الأداة) لوضع علامة على اللاعب محل الاهتمام. ولكن في حالة مقاطع الفيديو، يتم التنصت عليه.

شيء آخر لاحظته هو أن الفيديو كان مدته 45 ثانية، لكن في مشغل الفيديو كانت مدته 10 ثوانٍ فقط.

تم وضع علامة على 24 كائنًا بينما كان هناك حاجة إلى كائن واحد - تقسيم الفيديو

هذه هي النتيجة. كما ترون، انتهى الأمر بتتبع جميع اللاعبين. وهنا مشكلة أخرى. من الصعب جدًا إزالة الكائنات. حتى عند إزالة كائن واحد، سيتم إعادة عرض الفيديو بأكمله، مما يجعله يستغرق وقتًا طويلاً، خاصة إذا كان سيتم إزالة عدة كائنات (24 في هذا المقطع).

إذا كنت مهتمًا، فإليك المقطع الأخير:

الحكم

النموذج قادر بالتأكيد. إن القدرة على اقتراح الكائنات داخل الصورة ليس فقط، ولكن أيضًا اكتشافها بناءً على المدخلات هي ميزة كبيرة بالتأكيد. يقوم النموذج بمعالجة كل من الصور ومقاطع الفيديو في وقت قصير، وهو ما يعد ميزة كبيرة. لقد أعجبني تجزئة الصورة أكثر من وضع تجزئة الفيديو. ولكن إذا كنت يائسًا حقًا، فمن المحتمل أن تتمكن من العمل مع القيود الموجودة في تجزئة الفيديو.

فيما يلي بعض الأشياء التي أنصح بفعلها أثناء استخدام SAM3:

  1. استخدم علامة ROI كلما أمكن ذلك لتسليط الضوء على الكائن الذي تختاره.
  2. إذا كانت مدة مقاطع الفيديو أطول من 10 ثوانٍ، فقم بتقسيمها إلى أجزاء متعددة مدة كل منها 10 ثوانٍ.
  3. عند تحميل الوسائط، حاول إكمال المهمة في غضون 5 دقائق وإلا فقد تواجه خطأ في الخادم:
انتهت مهلة الجلسة - خطأ SAM3

خاتمة

يأخذ SAM3 الكعكة عندما يتعلق الأمر بتوفير سهولة الوصول إلى أدوات ومرشحات معالجة الصور المتطورة. إن ما يقدمه في الصور يعد أمرًا رائدًا، في حين أن إمكانات تجزئة الفيديو لديها إمكانات عالية. SAM3 المقترن بـ SAM3D يجعلها أداة الانتقال لأي متحمس للصور يتطلع إلى تشغيل أعباء العمل الخاصة به بواسطة الذكاء الاصطناعي. ويجري حاليًا تحسين النماذج، وستزداد ميزاتها بمرور الوقت.

الأسئلة المتداولة

س1. ما الذي يجعل SAM3 مختلفًا عن نماذج التجزئة الأخرى؟

A. يمكن لـ SAM3 تقسيم الكائنات بناءً على مطالبات نصية قصيرة أو أمثلة على الصور، وليس فقط التسميات المحددة مسبقًا. فهو يفهم مفاهيم أكثر تحديدًا مثل “الرجل ذو القميص الأناناس” ويعمل على كل من الصور ومقاطع الفيديو.

س2. كيف يمكنني استخدام SAM3؟

ج. يمكنك تجربتها من خلال Segment Anything Playground على الويب، أو تنزيل الأوزان والأكواد من GitHub، أو تحميلها من مركز نماذج Hugging Face.

س3. أين نضال SAM3؟

ج: لا يزال تقسيم الفيديو به بعض القيود. قد يكون من الصعب عزل كائن واحد من فئة واسعة، وإزالة الكائنات تفرض إعادة العرض، وقد تحتاج المقاطع الأطول من 10 ثوانٍ إلى التقسيم.

فاسو ديو سانكريتيايان

أنا متخصص في مراجعة وتحسين الأبحاث المستندة إلى الذكاء الاصطناعي والوثائق الفنية والمحتوى المتعلق بتقنيات الذكاء الاصطناعي الناشئة. تشمل خبرتي التدريب على نماذج الذكاء الاصطناعي، وتحليل البيانات، واسترجاع المعلومات، مما يسمح لي بصياغة محتوى دقيق تقنيًا ويمكن الوصول إليه.

قم بتسجيل الدخول لمواصلة القراءة والاستمتاع بالمحتوى الذي ينظمه الخبراء.


Source link

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى