شرح الذكاء الاصطناعي متعدد الوسائط الملائم للكمبيوتر المحمول Google T5Gemma-2

أسقطت Google للتو T5Gemma-2، وهو يغير قواعد اللعبة بالنسبة لشخص يعمل مع نماذج الذكاء الاصطناعي على الأجهزة اليومية. بنيت على عائلة Gemma 3، تعمل قوة التشفير وفك التشفير هذه على دمج الذكاء متعدد الوسائط والسياق الهائل في حزم صغيرة. تخيل تشغيل 270 مليون معلمة بسلاسة على الكمبيوتر المحمول الخاص بك. إذا كنت تبحث عن ذكاء اصطناعي فعال يتعامل مع النصوص والصور والمستندات الطويلة دون إنفاق الكثير من المال، فهذه هي تجربتك التالية. لقد كنت أتجول، وقد أذهلتني النتائج، لا سيما بالنظر إلى أنه نموذج خفيف الوزن.
في هذه المقالة، دعونا نتعمق في الأداة الجديدة المسماة ونتحقق من إمكانياتها
ما هو T5Gemma-2
T5Gemma-2 هو التطور التالي لعائلة أجهزة فك التشفير والتشفير، حيث يضم أول نماذج فك التشفير ومتعددة الوسائط وذات السياق الطويل. إنه يطور مجموعة أجهزة التشفير وفك التشفير من Google من نماذج وحدة فك التشفير Gemma 3 المدربة مسبقًا، والتي تم تكييفها من خلال التدريب المسبق الذكي المستمر. يقدم تضمينات مرتبطة بين جهاز التشفير ووحدة فك التشفير، مما يؤدي إلى خفض المعلمات مع الحفاظ على الطاقة سليمة، وتبلغ الأحجام 270M-270M (370M في المجموع)، 1B-1B (1.7B في المجموع)، و4B-4B (7B في المجموع).
على عكس أجهزة فك التشفير النقية، تتألق أجهزة التشفير المنفصلة في معالجة ثنائية الاتجاه لمهام مثل التلخيص أو ضمان الجودة. تم تدريبه على 2 تريليون رمز مميز حتى أغسطس 2024، ويغطي مستندات الويب والتعليمات البرمجية والرياضيات والصور عبر أكثر من 140 لغة.
ما الذي يجعل T5Gemma-2 مختلفًا؟
فيما يلي بعض الطرق التي يتميز بها T5Gemma-2 عن الحلول الأخرى من نوعه.
الابتكارات المعمارية
تتضمن T5Gemma-2 تغييرات معمارية كبيرة، بينما ترث العديد من الميزات القوية لعائلة Gemma 3.
1. التضمينات المربوطة: ترتبط التضمينات بين التشفير ووحدة فك التشفير. وهذا يقلل من العدد الإجمالي للمعلمات، مما يسمح لها بتعبئة المزيد من الإمكانات النشطة في نفس مساحة الذاكرة، وهو ما يفسر الطرازات المدمجة 270M-270M.
2. الاهتمام المدمج: في وحدة فك التشفير، تم دمج آلية الانتباه، والجمع بين الانتباه الذاتي والتقاطعي في طبقة اهتمام واحدة موحدة. وهذا يقلل من معلمات النموذج والتعقيد المعماري، مما يحسن موازاة النموذج ويستفيد من الاستدلال.
ترقيات في قدرات النموذج
1. تعدد الوسائط: غالبًا ما كانت النماذج السابقة تشعر بالعمى لأنها لا تستطيع العمل إلا مع النص، لكن T5Gemma 2 يمكنه الرؤية والقراءة في نفس الوقت. من خلال جهاز تشفير رؤية فعال متصل بالمكدس، يمكنه التقاط صورة بالإضافة إلى مطالبة والرد بإجابات أو تفسيرات مفصلة
هذا يعني أنه يمكنك:
- يمكنك طرح أسئلة حول المخططات أو المستندات أو لقطات شاشة واجهة المستخدم.
- أنشئ أدوات مرئية للإجابة على الأسئلة للحصول على الدعم أو التعليم أو التحليلات.
- أنشئ مسارات عمل حيث يقرأ نموذج واحد كلاً من النصوص والصور بدلاً من استخدام أنظمة متعددة.
2. سياق طويل ممتد: إحدى أكبر المشكلات في العمل اليومي في مجال الذكاء الاصطناعي هي حدود السياق. يمكنك إما اقتطاع المدخلات أو اختراقها. يعالج T5Gemma-2 هذه المشكلة عن طريق توسيع نافذة السياق حتى 128 ألف رمز باستخدام آلية الاهتمام المحلية والعالمية المتناوبة الموروثة من Gemma 3.
هذا يتيح لك:
- قم بتغذية الأوراق البحثية الكاملة أو مستندات السياسة أو قواعد التعليمات البرمجية الطويلة دون تقطيع شديد.
- قم بتشغيل خطوط أنابيب RAG الأكثر دقة حيث يمكن للنموذج رؤية أجزاء كبيرة من المادة المصدر مرة واحدة.
3. متعدد اللغات على نطاق واسع: تم تدريب T5Gemma-2 على مجموعة بيانات أوسع وأكثر تنوعًا تغطي أكثر من 140 لغة خارج الصندوق. وهذا يجعلها مناسبة تمامًا للمنتجات العالمية والأدوات الإقليمية وحالات الاستخدام التي لا تكون فيها اللغة الإنجليزية هي اللغة الافتراضية.
أنت تستطيع:
- خدمة المستخدمين في أسواق متعددة بنموذج واحد.
- أنشئ تدفقات الترجمة أو التلخيص أو ضمان الجودة التي تعمل عبر العديد من اللغات.
التدريب العملي على T5Gemma-2
لنفترض أنك محلل بيانات وتبحث في لوحات معلومات مبيعات شركتك. يجب عليك العمل مع الرسوم البيانية من مصادر متعددة، بما في ذلك لقطات الشاشة والتقارير. نماذج الرؤية الحالية إما لا توفر رؤية من الصور أو تتطلب منك استخدام نماذج رؤية مختلفة، مما يؤدي إلى تكرار في سير عملك. يمنحك T5Gemma-2 تجربة أفضل من خلال السماح لك باستخدام الصور والمطالبات النصية في نفس الوقت، مما يسمح لك بالحصول على معلومات أكثر دقة من صورك المرئية، مثل المخططات الشريطية أو الرسوم البيانية الخطية، مباشرة من الكمبيوتر المحمول الخاص بك.
يستخدم هذا العرض التوضيحي نموذج 270M-270M (إجمالي المعلمات 370M تقريبًا) على Google Colab لتحليل لقطة شاشة لمخطط مبيعات ربع سنوي. فهو يجيب على السؤال “ما هو الشهر الذي حقق أعلى إيرادات، وكيف كانت تلك الإيرادات أعلى من متوسط الإيرادات؟” في هذا المثال، تمكن النموذج من تحديد شهر الذروة بسهولة، وحساب الدلتا، وتقديم إجابة دقيقة، مما يجعله مثاليًا للاستخدام في التحليلات إما كجزء من خط أنابيب Reporting Automation Gap (RAG) أو لأتمتة إعداد التقارير.
هذا هو الكود الذي استخدمناه عليه –
# Load model and processor (use 270M-270M for laptop-friendly inference)
from transformers import T5Gemma2Processor, T5Gemma2ForConditionalGeneration
import torch
from PIL import Image
import requests
from io import BytesIO
model_id = "google/t5gemma-2-270m-270m" # Compact multimodal variant
processor = T5Gemma2Processor.from_pretrained(model_id)
model = T5Gemma2ForConditionalGeneration.from_pretrained(
model_id, torch_dtype=torch.bfloat16, device_map="auto"
)
# Load chart image (replace with your screenshot upload)
image_url = "https://example.com/sales-chart.png" # Or: Image.open("chart.png")
image = Image.open(BytesIO(requests.get(image_url).content))
# Multimodal prompt: image + text question
prompt = "Analyze this sales chart. What was the highest revenue month and by how much did it exceed the average?"
inputs = processor(text=prompt, images=image, return_tensors="pt")
# Generate response (128K context ready for long reports too)
with torch.no_grad():
generated_ids = model.generate(
**inputs, max_new_tokens=128, do_sample=False, temperature=0.0
)
response = processor.batch_decode(generated_ids, skip_special_tokens=True)(0)
print(response)
هذا هو الناتج الذي تمكن T5Gemma-2 من تقديمه
حقق شهر يوليو أعلى إيرادات بقيمة 450 ألف دولار أمريكي، متجاوزًا المتوسط الربع سنوي البالغ 320 ألف دولار أمريكي بمقدار 130 ألف دولار أمريكي. لا حاجة للتقطيع — قم بتغذية المستندات أو قواعد التعليمات البرمجية بالكامل بعد ذلك. اختبار متعدد اللغات: قم بتبديل المطالبة باللغة الهندية للفرق العالمية. قم بالتكميم إلى 4 بت باستخدام وحدات البت والبايت للنشر على الأجهزة المحمولة.
مقارنة الأداء
بمقارنة معايير ما قبل التدريب، فإن T5Gemma-2 هو إصدار أصغر وأكثر مرونة من Gemma 3، ولكنه يتمتع بقدرات أكثر قوة في خمسة مجالات: متعدد اللغات، ومتعدد الوسائط، والعلوم والتكنولوجيا والهندسة والرياضيات والترميز، والاستدلال والواقعية، والسياق الطويل. خصيصًا للأداء متعدد الوسائط، يؤدي T5Gemma-2 أداءً جيدًا أو يتفوق على Gemma 3 بحجم نموذج مكافئ، على الرغم من أن Gemma 3270M وGemma 3 1B هما مجرد نماذج نصية تم نقلها إلى أنظمة لغة الرؤية وفك التشفير.
يحتوي T5Gemma-2 أيضًا على سياق طويل متفوق يتجاوز كلاً من Gemma 3 وT5Gemma لأنه يحتوي على برنامج تشفير منفصل يقوم بتصميم تسلسلات أطول بطريقة أكثر دقة. بالإضافة إلى ذلك، فإن هذا السياق الطويل المعزز، بالإضافة إلى زيادة الأداء في اختبار الترميز والاستدلال والاختبارات متعددة اللغات، يعني أن الإصدارين 270M و1B مناسبان بشكل خاص للمطورين الذين يعملون على أنظمة الكمبيوتر النموذجية.
خاتمة
T5Gemma-2 هي المرة الأولى التي نرى فيها حقًا ذكاءً اصطناعيًا عمليًا متعدد الوسائط على جهاز كمبيوتر محمول. الجمع بين نقاط قوة Gemma-3 مع تصميمات التشفير/فك التشفير الفعالة، ودعم الاستدلال طويل السياق، والتغطية القوية متعددة اللغات، كل ذلك في أحجام عبوات مناسبة للكمبيوتر المحمول.
بالنسبة للمطورين والمحللين والبنائين، تعد القدرة على تقديم فهم أكثر ثراءً للرؤية/النص وسير عمل المستندات الطويلة دون الحاجة إلى الاعتماد على مجموعات ثقيلة من الخادم أمرًا هائلاً.
إذا كنت تنتظر نموذجًا مدمجًا حقًا يسمح لك بإجراء كل تجاربك المحلية مع إنشاء منتجات موثوقة وواقعية، فيجب عليك بالتأكيد إضافة T5Gemma-2 إلى صندوق الأدوات الخاص بك.
قم بتسجيل الدخول لمواصلة القراءة والاستمتاع بالمحتوى الذي ينظمه الخبراء.
Source link



