Meta’s AI للمشهد ثلاثي الأبعاد ونمذجة الجسم

لقد عادت معالجة الصور إلى الظهور من جديد مع إصدارات مثل Nano Banana وQwen Image، مما أدى إلى توسيع حدود ما كان ممكنًا في السابق. لم نعد عالقين بأصابع إضافية أو نص مكسور. يمكن لهذه النماذج إنتاج صور ورسوم توضيحية واقعية تحاكي عمل المصمم. أحدث إصدار من Meta، SAM3D، موجود هنا لتقديم مساهمته الخاصة في هذا النظام البيئي. من خلال النهج المبتكر لنمذجة الأجسام والأجسام ثلاثية الأبعاد، فقد أصبح هنا ليقدم نفسه كإضافة مرحب بها إلى ترسانة أي مصمم.
ستوضح هذه المقالة ماهية SAM3D، وكيف يمكنك الوصول إليها، بالإضافة إلى تدريب عملي لقياس قدراتها.
ما هو SAM3D؟
SAM3D أو Segment Anything Model 3D هو نظام من الجيل التالي للتجزئة المكانية في المشاهد ثلاثية الأبعاد الكاملة. وهو يعمل على السحب النقطية، وخرائط العمق، والأحجام المعاد بناؤها، ويأخذ النص أو المطالبات بدلاً من تسميات الفئة الثابتة. هذا هو اكتشاف الكائنات واستخراجها الذي يعمل مباشرة في مساحة ثلاثية الأبعاد مع فهم يعتمد على الذكاء الاصطناعي. في حين أن النماذج ثلاثية الأبعاد الحالية يمكنها تقسيم فئات واسعة مثل الإنسان أو الكرسي، فإن SAM3D يمكنه عزل مفاهيم أكثر تحديدًا مثل المصباح الطويل بجوار الأريكة.
يتغلب SAM3D على هذه الحدود باستخدام تجزئة المفهوم السريعة في الفضاء ثلاثي الأبعاد. يمكنه العثور على أي كائن تصفه داخل مشهد ممسوح ضوئيًا واستخراجه، سواء طلبت عبارة قصيرة أو نقطة أو شكل مرجعي، دون الاعتماد على قائمة محددة من الفئات.
كيفية الوصول إلى SAM3؟
فيما يلي بعض الطرق التي يمكنك من خلالها الوصول إلى نموذج SAM3:
- الملعب/العرض التجريبي على شبكة الإنترنت: هناك واجهة ويب “Segment Anything Playground”، حيث يمكنك تحميل صورة أو مقطع فيديو، وتقديم مطالبة نصية (أو نموذج)، وتجربة وظائف التجزئة والتتبع في SAM 3D.
- أوزان النموذج + الكود على GitHub: يتضمن المستودع الرسمي من Meta Research (facebookresearch/sam-3d-body) تعليمات برمجية للاستدلال والضبط الدقيق، بالإضافة إلى روابط لتنزيل نقاط التفتيش النموذجية المدربة.
- محور نموذج الوجه المعانق: النموذج متاح على Hugging Face (huggingface/SAM3D) مع الوصف وكيفية تحميل النموذج ومثال لاستخدام الصور/مقاطع الفيديو.
يمكنك العثور على طرق أخرى للوصول إلى النموذج من صفحة الإصدار الرسمية لـ SAM3D.
التنفيذ العملي لSAM3
دعونا الحصول على أيدينا القذرة. لمعرفة مدى جودة أداء SAM3D، سأقوم باختباره عبر المهمتين:
- إنشاء مشاهد ثلاثية الأبعاد
- إنشاء هيئات ثلاثية الأبعاد
الصورة المستخدمة للتوضيح هي نماذج الصور التي تقدمها Meta في ملعبها.
إنشاء مشاهد ثلاثية الأبعاد
تتيح هذه الأداة النمذجة ثلاثية الأبعاد للكائن من الصورة. ما عليك سوى النقر على كائن ما وسيقوم بإنشاء مخطط تفصيلي حوله يمكنك تحسينه بشكل أكبر. في هذا الاختبار سنستخدم الصورة التالية:

إجابة:

تلقيت الرد التالي بعد اختيار ماكينة القهوة:
تم التعرف على النموذج على أنه آلة لصنع القهوة، وكان قادرًا على تصميمها على غرار آلة واحدة. إذا نظرت عن كثب إلى التصور، كانت هناك أجزاء من القهوة لم تكن موجودة في الصورة، ولكن النموذج صنعها بنفسه، بناءً على فهمه لآلة القهوة.
إنشاء هيئات ثلاثية الأبعاد
للتعرف على الجسم ثلاثي الأبعاد، سأختبر مدى جودة رسم النموذج للإنسان في صورة معينة. للتوضيح سأستخدم الصورة التالية:

إجابة:
لقد حددت بشكل صحيح الشخص الوحيد في المقطع وأنشأت نموذجًا ثلاثي الأبعاد قابلاً للتفاعل من جسده. وكانت قريبة من شكل الجسم، وهو ما كان مرغوباً فيه. بالنسبة للصور التي لا تتكون من مواضيع متعددة وذات جودة عالية، ستكون هذه الأداة مفيدة.
الحكم
النموذج يقوم بعمله. لكن لا يسعني إلا أن أشعر بأن استخدامه مقيد، خاصة بالمقارنة مع SAM3 الذي يعد أكثر قابلية للتخصيص. كما أن النمذجة ثلاثية الأبعاد ليست مثالية، خاصة في حالة اكتشاف الأشياء.
فيما يلي بعض المشكلات الصارخة التي أدركتها باستخدام الأداة:
- يقتصر على الصور البسيطة: كان أداء نموذج الجسم ثلاثي الأبعاد جيدًا عندما استخدمت نماذج الصور المقدمة من Meta كمدخل. لكنها واجهت صعوبات وكان أداؤها سيئًا عندما قدمت لها صورًا لم تكن بهذه الجودة العالية ومصممة خصيصًا للأداة:

- لا يوجد اختيار يدوي: تتعرف أداة الجسم ثلاثية الأبعاد على الأجسام البشرية نفسها، ولا تسمح بأي ترسيم للحدود. وهذا يجعل من الصعب استخدام الأداة عندما لا يكون مخطط الجسم صحيحًا أو حسب رغبتنا.
- الأعطال والمهلة: عندما تكون الصورة المدخلة معقدة وتحتوي على أكثر من موضوع واحد (كما هو الحال في النقطة الأولى)، يستغرق النموذج الكثير من الوقت ليس فقط للتعرف على الجثث، ولكن أيضًا الكثير من موارد الأجهزة. لدرجة أنه في بعض الأحيان قد تتعطل صفحة الويب بشكل مباشر، بسبب نقص الموارد.
خاتمة
يرفع SAM3D مستوى العمل مع المشاهد ثلاثية الأبعاد عن طريق تسهيل استخدام التجزئة المكانية المتقدمة. ما يجلبه إلى السحب والأحجام هو خطوة كبيرة إلى الأمام، في حين أن قدرته على التقسيم عبر طرق عرض متعددة تفتح إمكانيات جديدة. يعمل SAM3D المقترن مع SAM3 على تحويل الثنائي إلى خيار قوي لأي شخص يريد فهم المشهد المدعوم بالذكاء الاصطناعي في كل من البعدين الثنائي والثلاثي الأبعاد. ولا يزال النموذج يتطور، وستستمر قدراته في التوسع مع نضوج البحث.
الأسئلة المتداولة
A. يقوم بتقسيم الكائنات إلى أجزاء ثلاثية الأبعاد كاملة باستخدام النص أو الإشارات الفورية بدلاً من تسميات الفئة الثابتة.
أ. نعم. يمكنه استخلاص مفاهيم تفصيلية مثل مصباح واحد أو عنصر محدد بناءً على المطالبات.
أ. من خلال ساحة اللعب على شبكة الإنترنت، أو كود وأوزان GitHub، أو مركز نموذج Hugging Face.
قم بتسجيل الدخول لمواصلة القراءة والاستمتاع بالمحتوى الذي ينظمه الخبراء.
Source link



