الذكاء الاصطناعي

كيفية الوصول إلى DeepSeek OCR 2 واستخدامه؟

إذا كنت قد عملت مع DeepSeek OCR، فأنت تعلم بالفعل أنه كان فعالاً في استخراج النص وضغط المستندات. غالبًا ما كان الفشل في قراءة الترتيب والصفحات ذات التخطيط الثقيل، وملفات PDF متعددة الأعمدة، والجداول الكثيفة، والمحتوى المختلط لا يزال بحاجة إلى التنظيف. DeepSeek OCR 2 هو إجابة DeepSeek لهذه الفجوة. بدلاً من التركيز فقط على الضغط، يحول هذا التحديث الانتباه إلى كيفية قراءة المستندات فعليًا. تظهر النتائج المبكرة بنية أكثر وضوحًا، وتسلسلًا أفضل، وأخطاء أقل بكثير تتعلق بالتخطيط، خاصة في المستندات التجارية والتقنية في العالم الحقيقي. دعنا نستكشف جميع الميزات الجديدة في DeepSekk OCR 2!

الميزات الرئيسية والتحسينات في DeepSeek OCR 2

  • بنية DeepEncoder V2 لترتيب القراءة المنطقي بدلاً من المسح الصارم من الأعلى إلى الأسفل
  • تحسين فهم التخطيط على الصفحات المعقدة التي تحتوي على نص متعدد الأعمدة وجداول كثيفة
  • نموذج خفيف الوزن يحتوي على 3 مليارات معلمة، ويتفوق على النماذج الأكبر حجمًا في المستندات المنظمة
  • ترقية برنامج تشفير الرؤية، واستبدال البنية القديمة بتصميم يعتمد على نموذج اللغة
  • أداء قياسي أعلى، حيث سجل 91.09 في OmniDocBench v1.5، وهو تحسن بنسبة 3.73 نقطة مئوية عن الإصدار السابق
  • دعم تنسيق واسع النطاق، بما في ذلك الصور وملفات PDF والجداول والمحتوى الرياضي
  • مفتوح المصدر وقابل للضبط الدقيق، مما يتيح التخصيص لحالات الاستخدام الخاصة بالمجال عبر الصناعات

بنية DeepEncoder V2

تقوم أنظمة التعرف الضوئي على الحروف (OCR) التقليدية بمعالجة الصور باستخدام المسح الضوئي الثابت القائم على الشبكة، والذي غالبًا ما يحد من ترتيب القراءة وفهم التخطيط. يتبنى DeepSeek OCR 2 نهجًا مختلفًا يعتمد على التدفق السببي البصري. يلتقط برنامج التشفير أولاً عرضًا شاملاً للصفحة ثم يعالج المحتوى بتسلسل منظم باستخدام الاستعلامات القابلة للتعلم. يتيح ذلك معالجة مرنة للتخطيطات المعقدة ويحسن اتساق ترتيب القراءة.

تشمل العناصر المعمارية الرئيسية ما يلي:

  • تصميم مزدوج الاهتمام يفصل بين إدراك التخطيط وترتيب القراءة
  • الرموز المرئية التي تشفر سياق الصفحة الكاملة والبنية المكانية
  • رموز الاستعلام السببية التي تتحكم في تفسير المحتوى المتسلسل
  • يوفر برنامج تشفير الرؤية المستند إلى نموذج اللغة الوعي بالأمر والإشارة المكانية
  • يعمل التشفير الموجه نحو المنطق بما يتجاوز استخراج الميزات الأساسية
  • مرحلة فك التشفير تحويل التمثيلات المشفرة إلى مخرجات نصية نهائية

ويختلف التدفق المعماري عن الإصدار السابق الذي اعتمد على مشفر رؤية ثابت غير سببي. يستبدل DeepEncoder V2 هذا ببرنامج تشفير قائم على نموذج اللغة واستعلامات سببية قابلة للتعلم، مما يتيح الإدراك العالمي الذي يتبعه تفسير متسلسل منظم.

معايير الأداء

يُظهر DeepSeek OCR 2 أداءً قياسيًا قويًا. في OmniDocBench v1.5، حقق درجة 91.09، مما أدى إلى إنشاء حالة جديدة من التقدم في فهم المستندات المنظمة. وتظهر أهم المكاسب في دقة ترتيب القراءة، مما يعكس فعالية البنية المحدثة.

بالمقارنة مع نماذج لغة الرؤية الأخرى، يحافظ DeepSeek OCR 2 على بنية المستند بشكل أكثر موثوقية من الحلول العامة مثل GPT-4 Vision. يمكن مقارنة دقتها بأنظمة التعرف الضوئي على الحروف التجارية المتخصصة، مما يجعلها بديلاً قويًا مفتوح المصدر. تشير نتائج الضبط الدقيق المُبلغ عنها إلى انخفاض يصل إلى 86% في معدل خطأ الأحرف لمهام محددة. تُظهر التقييمات المبكرة أيضًا تحسينًا في التعامل مع النص الذي تم تدويره والجداول المعقدة، مما يدعم ملاءمته لأحمال عمل التعرف الضوئي على الحروف (OCR) الصعبة.

اقرأ أيضًا: DeepSeek OCR vs Qwen-3 VL vs Mistral OCR: ما هو الأفضل؟

كيفية الوصول إلى DeepSeek OCR 2 واستخدامه؟

يمكنك استخدام DeepSeek OCR 2 مع بضعة أسطر من التعليمات البرمجية. النموذج متاح على Hugging Face Hub. ستحتاج إلى بيئة Python ووحدة معالجة رسومات (GPU) بسعة 16 جيجابايت تقريبًا من VRAM.

ولكن هناك عرضًا توضيحيًا متاحًا في HuggingFace Spaces لـ DeepSeek OCR 2 – يمكنك العثور عليه هنا.

دعونا نختبر التعرف الضوئي على الحروف 2.

المهمة 1: النصوص الكثيفة والمستندات الثقيلة في الجدول

نصوص كثيفة ومستندات ثقيلة في الجدول لـ DeepSeek OCR 2

نتيجة:

مخرجات المهمة 1

يعمل DeepSeek OCR 2 بشكل جيد على المستندات الممسوحة ضوئيًا ذات النصوص الثقيلة. النص المستخرج دقيق وسهل القراءة ويتبع ترتيب القراءة الصحيح، حتى عبر الفقرات الكثيفة والأقسام المرقمة. يتم تحويل الجداول إلى HTML منظم بترتيب متسق، وهي نقطة فشل شائعة لأنظمة التعرف الضوئي على الحروف التقليدية. على الرغم من وجود تكرار بسيط في التنسيق، إلا أن المحتوى والتخطيط العام يظلان على حالهما. يوضح هذا المثال مدى موثوقية النموذج في السياسات المعقدة والمستندات القانونية، مما يدعم الفهم على مستوى المستند بما يتجاوز استخراج النص الأساسي.

المهمة 2: الصور المزعجة ومنخفضة الدقة

صور مزعجة ومنخفضة الدقة

نتيجة:

إخراج صور مزعجة ومنخفضة الدقة على DeepSeek OCR

يسلط هذا المثال الضوء على نقاط القوة والقيود في DeepSeek OCR 2 على البيانات المالية الجدولية الصاخبة للغاية ومنخفضة الدقة. يحدد النموذج العناوين الرئيسية والنص المصدر بشكل صحيح ويتعرف على المحتوى كجدول، مما يؤدي إلى إنتاج مخرجات قائمة على الجدول بدلاً من النص العادي. ومع ذلك، لا تزال هناك مشكلات هيكلية، بما في ذلك الصفوف المكررة، والمحاذاة غير المنتظمة للخلايا، ودمج الخلايا غير الصحيح في بعض الأحيان، ويرجع ذلك على الأرجح إلى التخطيطات الكثيفة، وأحجام الخطوط الصغيرة، وانخفاض جودة الصورة.

في حين يتم التقاط معظم القيم الرقمية والتسميات بدقة، إلا أن المعالجة اللاحقة مطلوبة لاستخدام الإنتاج. بشكل عام، تشير النتائج إلى التعرف القوي على نية التخطيط، مع بقاء الجداول المالية المزدحمة بشدة تمثل حالة صعبة.

متى يتم استخدام DeepSeek OCR 2؟

  • معالجة المستندات المعقدة مثل الأوراق الأكاديمية والوثائق الفنية والصحف
  • تحويل المستندات الممسوحة ضوئيًا والرقمية إلى تنسيقات منظمة، بما في ذلك Markdown
  • استخراج المعلومات المنظمة من المستندات التجارية مثل الفواتير والعقود والبيانات المالية
  • التعامل مع المحتوى كثيف التخطيط حيث يكون الحفاظ على البنية أمرًا بالغ الأهمية
  • معالجة المستندات الخاصة بالمجال من خلال الضبط الدقيق للمصطلحات الطبية أو القانونية أو المتخصصة
  • يتم تمكين سير العمل الحساس للخصوصية من خلال النشر المحلي داخل الشركة
  • معالجة آمنة للمستندات للوكالات الحكومية والمؤسسات دون نقل البيانات السحابية
  • التكامل مع الذكاء الاصطناعي الحديث وخطوط معالجة المستندات عبر الصناعات

اقرأ أيضًا: أفضل 8 مكتبات للتعرف الضوئي على الحروف في Python لاستخراج النص من الصورة

خاتمة

يمثل DeepSeek OCR 2 خطوة واضحة للأمام في مستند AI. تعمل بنية DeepEncoder V2 على تحسين التعامل مع التخطيط وترتيب القراءة، ومعالجة القيود التي ظهرت في أنظمة التعرف الضوئي على الحروف السابقة. يحقق النموذج دقة عالية مع الحفاظ على خفة الوزن وفعالية من حيث التكلفة. وباعتباره نظامًا مفتوح المصدر بالكامل، فإنه يمكّن المطورين من إنشاء سير عمل لفهم المستندات دون الاعتماد على واجهات برمجة التطبيقات الخاصة. يعكس هذا الإصدار تحولًا أوسع في التعرف الضوئي على الحروف من الاستخراج على مستوى الأحرف إلى الترجمة الفورية على مستوى المستند، والجمع بين الرؤية واللغة لمعالجة أكثر تنظيمًا وموثوقية للمستندات المعقدة.

الأسئلة المتداولة

س1. ما هو برنامج DeepSeek OCR 2؟

ج: إنه نموذج لغة رؤية مفتوح المصدر. إنها شركة للتعرف البصري على الأحرف وفهم المستندات.

س2. كيف تختلف عن أدوات التعرف الضوئي على الحروف الأخرى؟

أ- يعمل ببنية خاصة يقرأ من خلالها المستندات بالتسلسل البشري والمنطقي. وهذا يعزز الدقة في تراكب الخطط المعقدة.

س3. هل DeepSeek OCR 2 مجاني للاستخدام؟

ج: نعم، إنه نموذج مفتوح المصدر. يمكنك تنزيله وتشغيله على أجهزتك الخاصة مجانًا.

س 4. ما نوع الأجهزة التي أحتاجها لتشغيله؟

ج: أنت بحاجة إلى جهاز كمبيوتر مزود بوحدة معالجة رسومات حديثة. يوصى باستخدام 16 جيجابايت على الأقل من VRAM للحصول على أداء جيد.

س5.5. هل يمكنه قراءة النص المكتوب بخط اليد؟

ج: تم تصميمه في المقام الأول لاستيعاب النص المطبوع أو الإلكتروني. قد تكون النماذج الخاصة الأخرى أكثر فعالية في كتابة الكتابة اليدوية المعقدة.

هارش ميشرا

هارش ميشرا هو مهندس الذكاء الاصطناعي والتعلم الآلي الذي يقضي وقتًا أطول في التحدث إلى نماذج اللغات الكبيرة مقارنة بالبشر الفعليين. شغوف بـ GenAI وNLP وجعل الآلات أكثر ذكاءً (لذلك لا يحل محله بعد). عندما لا يقوم بتحسين النماذج، فمن المحتمل أنه يقوم بتحسين تناول القهوة. 🚀☕

قم بتسجيل الدخول لمواصلة القراءة والاستمتاع بالمحتوى الذي ينظمه الخبراء.


Source link

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى