PhysicEdit: تدريس نماذج تحرير الصور لاحترام الفيزياء

تعتبر نماذج تحرير الصور المبنية على التعليمات مثيرة للإعجاب عند اتباع المطالبات. ولكن عندما تتضمن التعديلات تفاعلات جسدية، فإنها غالبًا ما تفشل في احترام قوانين العالم الحقيقي. في ورقتهم “من الإحصائيات إلى الديناميكيات: تحرير الصور المدرك للفيزياء مع أولويات الانتقال الكامنة”، يقدم المؤلفون PhysicEdit، وهو إطار عمل يتعامل مع تحرير الصور باعتباره انتقالًا للحالة المادية بدلاً من التحول الثابت بين صورتين. يعمل هذا التحول على تحسين الواقعية في السيناريوهات الفيزيائية الثقيلة.
فشل توليد الصور بالذكاء الاصطناعي
تقوم بإنشاء غرفة بها مصباح وتطلب من العارضة إطفائها. ينطفئ المصباح، لكن الإضاءة في الغرفة بالكاد تتغير. تظل الظلال غير متناسقة. يتم اتباع التعليمات، ولكن يتم تجاهل فيزياء الإضاءة.
الآن أدخل القش في كوب من الماء. تظهر القشة في الزجاج ولكنها تظل مستقيمة تمامًا بدلاً من الانحناء بسبب الانكسار. يبدو التعديل صحيحًا للوهلة الأولى، لكنه ينتهك الفيزياء البصرية. هذه هي بالضبط الإخفاقات التي يهدف PhysicEdit إلى إصلاحها.

اقرأ أيضًا: أفضل 7 مولدات صور تعمل بالذكاء الاصطناعي يمكنك تجربتها في عام 2026
المشكلة مع نماذج تحرير الصور الحالية
تتبع معظم نماذج التحرير المبنية على التعليمات إعدادًا مباشرًا.
- يمكنك تقديم صورة المصدر.
- يمكنك تقديم تعليمات التحرير.
- يقوم النموذج بإنشاء صورة معدلة.
يعمل هذا بشكل جيد مع التعديلات الدلالية مثل:
- تغيير لون القميص إلى اللون الأزرق
- استبدل الكلب بقطة
- قم بإزالة الكرسي
ومع ذلك، يعامل هذا الإعداد التحرير على أنه تعيين ثابت بين صورتين. إنه لا يمثل العملية التي تؤدي من الحالة الأولية إلى الحالة النهائية.
يصبح هذا مشكلة في السيناريوهات الثقيلة في الفيزياء مثل:
- أدخل القش في كوب من الماء
- دع الكرة تسقط على الوسادة
- أطفئ المصباح
- قم بتجميد علبة الصودا
تتطلب هذه التعديلات فهم كيفية تأثير القوانين الفيزيائية على المشهد بمرور الوقت. وبدون نمذجة هذا التحول، غالبا ما ينتج النظام نتائج تبدو معقولة للوهلة الأولى ولكنها تنكسر عند الفحص الدقيق.
من رسم الخرائط الثابتة إلى تحولات الحالة المادية
يقترح PhysicEdit صيغة مختلفة.
بدلاً من التنبؤ مباشرة بالصورة النهائية من الصورة المصدر والتعليمات، فإنه يتعامل مع التعليمات كمحفز مادي. تمثل الصورة المصدر الحالة المادية الأولية للمشهد. تمثل الصورة النهائية النتيجة بعد تطور المشهد بموجب القوانين الفيزيائية.
وبعبارة أخرى، يتم التعامل مع التحرير على أنه مشكلة تطور الحالة وليس التحول المباشر.
هذا التمييز مهم.
توفر مجموعات بيانات التحرير التقليدية فقط صورة البداية والصورة النهائية. الخطوات الوسيطة مفقودة. ونتيجة لذلك، يتعلم النموذج الشكل الذي يجب أن يبدو عليه الناتج، ولكن ليس كيف يجب أن يتطور المشهد فعليًا للوصول إلى تلك الحالة.
يعالج PhysicEdit هذا القيد من خلال التعلم من مقاطع الفيديو.
إدخال PhysicTran38K
لتدريب نموذج تحرير مدرك للفيزياء، أنشأ المؤلفون مجموعة بيانات جديدة تسمى PhysicTran38K. يحتوي على ما يقرب من 38000 زوج من تعليمات الفيديو تركز بشكل خاص على التحولات الجسدية. تغطي مجموعة البيانات خمسة مجالات رئيسية:
- ميكانيكية
- بصري
- بيولوجية
- مادة
- الحرارية
عبر هذه المجالات، يحدد 16 نطاقًا فرعيًا و46 نوعًا انتقاليًا. تشمل الأمثلة ما يلي:
- انعكاس الضوء
- الانكسار
- التشوه
- تجميد
- ذوبان
- إنبات
- تصلب
- ينهار

يلتقط كل فيديو عملية انتقال كاملة من الحالة الأولية إلى الحالة النهائية، بما في ذلك الخطوات المتوسطة. يتم تنظيم عملية البناء وتصفيتها بعناية:
- يتم إنشاء مقاطع الفيديو باستخدام المطالبات التي تحدد بوضوح حالة البداية، وحدث التشغيل، والانتقال، والحالة النهائية.
- تتم تصفية حركة الكاميرا بحيث تعكس تغييرات البكسل التطور الجسدي بدلاً من تغيرات وجهة النظر.
- يتم التحقق من المبادئ الفيزيائية تلقائيًا لضمان الاتساق.
- يتم الاحتفاظ فقط بالانتقالات التي تجتاز عمليات التحقق هذه.
وينتج عن ذلك إشراف عالي الجودة لتعلم الديناميكيات البدنية الواقعية.
كيف يعمل PhysicEdit؟
يعتمد PhysicEdit على Qwen-Image-Edit، وهو العمود الفقري للتحرير القائم على الانتشار. لدمج الفيزياء، فإنه يقدم آلية تفكير مزدوج مكونة من عنصرين:
- المنطق على أسس جسدية
- التفكير البصري الضمني

يكمل هذان التياران بعضهما البعض ويتناولان جوانب مختلفة من الواقعية المادية.
التفكير المزدوج: الاستدلال والانتقال البصري
الاستدلال القائم على أسس جسدية
يستخدم PhysicEdit نموذج Qwen2.5-VL-7B المجمد لإنشاء تفكير منظم قبل بدء إنشاء الصور.
بالنظر إلى الصورة المصدر والتعليمات، فإنه ينتج:
- القوانين الفيزيائية المعنية
- القيود التي يجب احترامها
- وصف لكيفية حدوث التغيير
يصبح أثر الاستدلال هذا جزءًا من سياق التكييف لنموذج الانتشار. فهو يضمن أن التحرير يحترم العلاقة السببية ومعرفة المجال.
ويظل نموذج الاستدلال مجمداً أثناء التدريب، مما يساعد في الحفاظ على معرفته العامة.
التفكير البصري الضمني
لا يمكن لمنطق النص وحده التقاط تأثيرات بصرية دقيقة مثل:
- تشوه دقيق
- التحولات الملمس أثناء الذوبان
- تشتت الضوء
للتعامل مع هذا، يقدم PhysicEdit استعلامات انتقالية قابلة للتعلم.
يتم تدريب هذه الاستعلامات باستخدام الإطارات المتوسطة من مقاطع فيديو PhysicTran38K. ويشرف عليهم اثنان من المشفرين:
- ميزات DINOv2 للمعلومات الهيكلية
- ميزات VAE للحصول على تفاصيل على مستوى الملمس
أثناء التدريب، يقوم النموذج بمحاذاة استعلامات الانتقال مع الميزات المرئية المستخرجة من الحالات المتوسطة. في وقت الاستدلال، لا تتوفر أي إطارات وسيطة. وبدلاً من ذلك، تعمل استعلامات الانتقال المستفادة كمقدمات انتقالية مقطرة، لتوجيه النموذج نحو مخرجات معقولة ماديًا.
لماذا يعتبر الفيديو مهمًا لتعلم الفيزياء؟
مع الإشراف على الصورة فقط، يرى النموذج الحالات الأولية والنهائية فقط. ومن خلال الإشراف بالفيديو، يرى كيف يتطور المشهد خطوة بخطوة. هذه المعلومات الإضافية تقيد عملية التعلم. إنه يعلم النموذج ليس فقط كيف يجب أن تبدو النتيجة، ولكن كيف يجب أن تتطور مع مرور الوقت. يقوم PhysicEdit بضغط هذه المعلومات الديناميكية إلى تمثيلات كامنة بحيث يظل التحرير فعالاً ويعتمد على صورة واحدة أثناء الاستدلال.
النتائج على PICABench وKRISBench
تم تقييم PhysicEdit على معيارين:
نتائج بيكابينش

يركز PICABench على الواقعية الفيزيائية، بما في ذلك البصريات والميكانيكا وانتقالات الحالة. بالمقارنة مع نموذجه الأساسي، يعمل PhysicEdit على تحسين الواقعية الجسدية الإجمالية بنسبة 5.9% تقريبًا. وتظهر أكبر المكاسب في الفئات التي تتطلب ديناميكيات ضمنية، بما في ذلك:
- تأثيرات مصدر الضوء
- التشوه
- السببية
- الانكسار
نتائج كريسبينش

في KRISBench، الذي يقوم بتقييم التحرير المبني على المعرفة، يعمل PhysicEdit على تحسين الأداء العام بحوالي 10.1%. التحسينات ملحوظة بشكل خاص في:
- الإدراك الزمني
- استدلال العلوم الطبيعية
تشير هذه النتائج إلى أن تحرير النمذجة أثناء انتقالات الحالة يعمل على تحسين الدقة البصرية والتفكير المتعلق بالفيزياء.
لماذا هذا مهم لأنظمة الذكاء الاصطناعي؟
ومع تزايد اندماج النماذج التوليدية في الأدوات الإبداعية، وأنظمة الواقع المعزز، والوكلاء متعددي الوسائط، أصبحت المعقولية المادية ذات أهمية متزايدة. يمكن أن تؤدي الإضاءة غير المتناسقة بصريًا، أو التشوه غير الواقعي، أو السببية المكسورة إلى تقليل الموثوقية والثقة.
يوضح PhysicEdit ما يلي:
- يمكن تعلم الفيزياء بشكل فعال من بيانات الفيديو
- يمكن تقطير المقدمات الانتقالية إلى تمثيلات كامنة مدمجة
- يمكن أن يعمل المنطق النصي والإشراف البصري معًا
ويمثل هذا خطوة ذات معنى نحو نماذج توليدية أكثر اتساقًا مع العالم.
أهم مقالاتنا عن نماذج تحرير الصور:
خاتمة
تتعامل معظم نماذج تحرير الصور مع التحرير باعتباره مشكلة تحويل ثابتة. يقوم PhysicEdit بإعادة صياغتها كمشكلة انتقال الحالة المادية. من خلال الجمع بين الإشراف القائم على الفيديو، والتفكير المنطقي المادي، وسابقات الانتقال المستفادة، فإنه ينتج تعديلات ليست صحيحة لغويًا فحسب، بل معقولة ماديًا. تعد مجموعة البيانات والتعليمات البرمجية ونقاط التفتيش مفتوحة المصدر، مما يجعلها في متناول الباحثين والمهندسين الذين يرغبون في إنشاء أنظمة تحرير أكثر واقعية. مع استمرار تطور الذكاء الاصطناعي التوليدي، قد يتحول دمج الاتساق المادي من كونه ابتكارًا بحثيًا إلى متطلب قياسي.
ملحوظة: مصدر جميع الصور والمعلومات الموجودة في المدونة هو هذه الورقة البحثية.
قم بتسجيل الدخول لمواصلة القراءة والاستمتاع بالمحتوى الذي ينظمه الخبراء.
Source link



