توثيق الذكاء الاصطناعي لاستخراج البيانات المنظمة

يعد الحصول على النص في ملف PDF فوضوي أكثر إشكالية من كونه مفيدًا. لا تكمن المشكلة في القدرة على تحويل وحدات البكسل إلى نص، بل في الحفاظ على بنية المستند. يجب أن تكون الجداول والعناوين والصور بالتسلسل الصحيح. عند استخدام Mistral OCR 3، لم يعد الأمر يتعلق بتحويل النص، بل إنتاج معلومات تجارية قابلة للاستخدام. تهدف أداة استخراج المستندات الجديدة التي تعمل بالذكاء الاصطناعي إلى تحسين عملية استخراج الملفات المعقدة.
يناقش هذا الدليل نموذج Mistral OCR 3. سنناقش أيضًا ميزاته الجديدة وطرق استخدامها، وأخيرًا، نختتم بمقارنة مع نموذج DeepSeek-OCR ذو الأوزان المفتوحة أيضًا.
فهم ميسترال التعرف الضوئي على الحروف 3
تقدم ميسترال أداتها الجديدة التعرف الضوئي على الحروف 3 باعتبارها واحدة للأغراض العامة. فهو يتعامل مع العدد الكبير من المستندات الموجودة في المؤسسات، ولا يقتصر على إجراء مسح ضوئي نظيف للفواتير باستخدام تقنية التعرف الضوئي على الحروف. تقدم ميسترال أهم التحسينات التي تحل بعض الأعطال المتكررة للتعرف الضوئي على الحروف.
- الكتابة اليدوية: يحصل النموذج على عمل محسّن في الطباعة والكتابة اليدوية للنص على الطابعات.
- النماذج: يقوم بمعالجة الهياكل المعقدة للمربعات والملصقات وأنواع النصوص المختلطة. وهو أمر نموذجي للفواتير والإيصالات والمستندات الحكومية.
- المستندات الممسوحة ضوئيًا: يكون النظام أقل تأثراً بالمسح الضوئي للعناصر مثل الانحراف والتشوه والدقة المنخفضة وما إلى ذلك.
- الجداول المعقدة: ويوفر جدولًا محسنًا لإعادة الإعمار. سيشمل هذا مجموعة من الخلايا، بالإضافة إلى صفوف متعددة. الإخراج في علامات HTML للحفاظ على التخطيط الأصلي.
وتقول ميسترال إنها اختبرت النموذج مقابل معايير داخلية، وهو ما يعني حالات عمل حقيقية.
ما الجديد في التعرف الضوئي على الحروف 3؟
يقدم الإصدار النهائي تعديلين مهمين للمطورين: جودة المخرجات والتحكم. تعمل هذه الخصائص على تضخيم صلاحيات الاستخراج المنظمة للنموذج.
1. ضوابط جديدة لعناصر الوثيقة: يربط سجل التغيير الخاص بـ Mistral OCR 3 النموذج الجديد بمعلمات ومخرجات جديدة. أصبح Tableformat الآن قادرًا على الاختيار بين تخفيض السعر وHTML. سيساعدك Extractheader وextractfooter والارتباطات التشعبية أيضًا في التعامل مع أقسام المستندات الخاصة. وهذا أحد أسس نظام الذكاء الاصطناعي للمستندات الخاص به.
2. ملعب واجهة المستخدم للاختبار السريع: يحتوي Mistral OCR 3 على واجهة برمجة تطبيقات التعرف الضوئي على الحروف (OCR) و”ملعب AI للمستندات” في Mistral AI Studio. يسمح لك الملعب باختبار السيناريوهات الصعبة بسرعة، على سبيل المثال، عمليات المسح الخاطئة أو الخربشات. قبل أتمتة العملية الخاصة بك، يمكنك تعديل معلمات مثل تنسيق الجدول والتحقق من المخرجات. يجب أن تحتوي مشاريع التعرف الضوئي على الحروف الناجحة على حلقة تعليقات سريعة.
3. التوافق مع الإصدارات السابقة: تؤكد ميسترال أن OCR 3 متوافق مع بقية نسختها السابقة. سيمكن هذا الفرق من تحديث أنظمتها بمرور الوقت دون إعادة كتابة مسارها.
النماذج والتسعير
يقال أن OCR 3 هو mistral-ocr-2512. تشير الوثائق أيضًا إلى الاسم المستعار الأحدث لـmistral-ocr. سيتم التسعير على أساس الصفحة.
- 2 دولار لكل 1000 صفحة
- 3 دولارات لكل 1000 صفحة مشروحة
السعر الثاني سيكون عند استخدام التعليقات التوضيحية للقيام بالاستخراج المنظم. يجب أن تضع الفرق هذه التكلفة في الميزانية مبكرًا.
التدريب العملي على Document AI Playground
يمكنك الوصول إلى Mistral OCR 3 من خلال Document AI Playground في Mistral AI Studio. وهذا يسمح بإجراء اختبار سريع وعملي.
- افتح Document AI Playground في Mistral AI Studio. توجه إلى console.mistral.ai/build/document-ai/ocr-playground
إذا رأيت “حدد خطة“، ثم قم بالتسجيل باستخدام رقمك وستتمكن من رؤية ما يلي

- تحميل ملف PDF أو صورة. ابدأ بمستند صعب، مثل نموذج ممسوح ضوئيًا مع جدول.
لماذا هذه الصورة؟
فاتورة نظيفة مع جدول (اختبار أول رائع لإعادة بناء جدول OCR 3)
استخدم هذا للتحقق:
- ترتيب القراءة (حقول الرأس مقابل عناصر السطر)
- استخراج الجدول (الصفوف/الأعمدة، الإجماليات)
- استخراج رأس/تذييل الصفحة
- حدد طراز OCR 3، الذي قد يكون كذلك
mistral-ocr-2512أو الأحدث. - اختر تنسيق الجدول. استخدم html للحصول على الدقة الهيكلية أو تخفيض السعر إذا كان خط الأنابيب الخاص بك يستخدمه.

- قم بتشغيل العملية وفحص الإخراج. التحقق من ترتيب القراءة وهيكل الجدول.
الإخراج:

- يعد تشغيل OCR 3 الأول خاليًا من العيوب بشكل أساسي بالنسبة لفاتورة رقمية نظيفة.
- يتم التقاط جميع الحقول الرئيسية وأقسام التخطيط وجدول ملخص الرسوم بشكل صحيح دون أي أخطاء نصية أو هلوسة.
- يتم الحفاظ على بنية الجدول والاتساق الرقمي، وهو أمر بالغ الأهمية للأتمتة المالية.
- يُظهر أن OCR 3 جاهز للإنتاج للفواتير القياسية.
التدريب العملي على واجهة برمجة تطبيقات OCR
الخيار أ: التعرف الضوئي على الحروف لمستند من عنوان URL
تدعم واجهة OCR API عناوين URL للمستندات. تقوم بإرجاع النص والعناصر المنظمة.
فيما يلي مثال لـ Python باستخدام SDK الرسمي.
import os
from mistralai import Mistral, DocumentURLChunk
client = Mistral(api_key=os.environ("MISTRAL_API_KEY"))
resp = client.ocr.process(
model="mistral-ocr-2512",
document=DocumentURLChunk(document_url="https://arxiv.org/pdf/2510.04950"),
table_format="html",
extract_header=True,
extract_footer=True,
)
print(resp.pages(0).markdown(:1000))
الإخراج:

الخيار ب: تحميل الملفات والتعرف الضوئي على الحروف بواسطة file_id
تعمل هذه الطريقة مع المستندات الخاصة، وليس على عنوان URL العام. تحتوي واجهة برمجة تطبيقات ميسترال على /v1/files نقطة النهاية للتحميلات.
أولا، قم بتحميل الملف باستخدام بايثون.
import os
from mistralai import Mistral
client = Mistral(api_key=os.environ("MISTRAL_API_KEY"))
uploaded = client.files.upload(
file={"file_name": "doc.pdf", "content": open("/content/Resume-Sample-1-Software-Engineer.pdf", "rb")},
purpose="ocr",
)
resp = client.ocr.process(
model="mistral-ocr-2512",
document={"file_id": uploaded.id},
table_format="html",
)
print(resp.pages(0).markdown(:1000))
الإخراج:

التعامل مع الصور والجداول
تتميز الصور والجداول الموجودة في العلامة بالعناصر النائبة المستخدمة بواسطة مخرجات التعرف الضوئي على الحروف (OCR) في ميسترال. يتم إرجاع المحتوى الحقيقي الذي تم استخراجه في صفائف مختلفة. يمنحك هذا التخطيط خيارًا لجعل العلامة التجارية هي طريقة عرض المستند الأساسية. ويمكن بعد ذلك تخزين موارد الصور والجدول في الموقع المطلوب.
التعرف الضوئي على الحروف البسيط هو الخطوة الأولى. الاستخراج المنظم يعطي القيمة الحقيقية. يتم توفير ميزة التعليقات التوضيحية للفكرة في منصة المستند AI بواسطة Mistral. يسمح لك بإنشاء مخطط ومستندات غير هيكلية باستخدام JSON. هذه هي الطريقة التي يمكنك من خلالها التوصل إلى خطوط استخراج يمكن الاعتماد عليها والتي لا يمكن كسرها عن طريق تغيير تخطيط الفاتورة من قبل البائع. أحد الحلول الأكثر عملية هو استخدام OCR 3 لإدخال النص والتعليقات التوضيحية في الحقول المحددة التي تحتاجها، على سبيل المثال أرقام الفواتير أو الإجماليات.
التوسع باستخدام الاستدلال الدفعي
في المعالجة بكميات كبيرة، مطلوب الخلط. يتيح لك نظام الدُفعات من Mistral إرسال عدد كبير من طلبات واجهة برمجة التطبيقات (API) في ملف بامتداد a.jsonl. ويمكن بعد ذلك تشغيلها كوظيفة واحدة. الوثائق تشير إلى ذلك /v1/ocr هي إحدى نقاط نهاية المهام المجمعة المدعومة.
كيفية اختيار النموذج المناسب
يعتمد الخيار الأفضل على مستنداتك وقيودك. هنا طريقة نظيفة للتقييم.
ما يجب قياسه
- دقة النص: استخدم معدلات خطأ الأحرف أو الكلمات في نماذج الصفحات.
- جودة الهيكل: إعادة بناء جدول الدرجات وصحة ترتيب القراءة.
- موثوقية الاستخراج: قم بقياس دقة المجال لنقاط البيانات المستهدفة.
- الأداء التشغيلي: تتبع أوضاع زمن الوصول والإنتاجية والفشل.
دعونا نقارن
استخدم الصورة التالية كمرجع لمقارنة كلا النموذجين. اخترنا هذه الصورة كما هي:
نموذج اختبار التحمل الصعب مع الحقول المعبأة + الكتابة اليدوية المختلطة + النص المطبوع (رائع لمقارنة OCR 3 مقابل DeepSeek-OCR).
سوف نستخدم هذا للمقارنة:
- دقة الكتابة اليدوية (مخطوطة + أرقام)
- محاذاة المربع/الحقل (الأرقام داخل المربعات الصغيرة)
- المتانة للتخطيطات الكثيفة والنص الصغير
ميسترال التعرف الضوئي على الحروف 3

الإخراج:

هذه النتيجة مثيرة للإعجاب نظرا لصعوبة الإدخال.
- يحدد برنامج Mistral OCR 3 بشكل صحيح بنية المستند، والعناوين، ومعظم الأرقام والنصوص المكتوبة بخط اليد، مما يحول نموذج الكتابة اليدوية الكثيفة إلى علامة تجارية قابلة للاستخدام.
- تظهر بعض مشكلات التكرار والمحاذاة البسيطة في الجداول، وهو أمر متوقع بالنسبة لشبكات الكتابة اليدوية الثقيلة.
- بشكل عام، فإنه يوضح التعرف القوي على الكتابة اليدوية والوعي بالتخطيط، مما يجعله مناسبًا لرقمنة النماذج في العالم الحقيقي مع المعالجة اللاحقة الخفيفة
ديبسيك التعرف الضوئي على الحروف

لقد تم تجميل النتيجة مما يجعل الأمر أسهل من الاستجابة السابقة. وهنا بعض الأشياء الأخرى التي لاحظتها حول:
- يُظهر DeepSeek OCR التعرف على الكتابة اليدوية بشكل قوي ولكنه يواجه صعوبة أكبر في الدقة الدلالية وإخلاص التخطيط.
- يتم تفسير الحقول الرئيسية بشكل خاطئ، مثل “المدينة” و”الرمز البريدي للحالة”، وتكون بنية الجدول أقل دقة مع الرؤوس غير الصحيحة والصفوف المكررة.
- يعد التعرف على مستوى الأحرف أمرًا لائقًا، لكن التباعد والتجميع ومعنى الحقل يتدهور في ظل الكتابة اليدوية الكثيفة.
نتيجة:
من الواضح أن Mistral OCR 3 يتفوق على DeepSeek OCR في هذا النموذج ذو الكتابة اليدوية الثقيلة. فهو يحافظ على بنية المستند، ودلالات المجال، ومحاذاة الجدول بشكل أكثر دقة، حتى في ظل الشبكات الكثيفة المكتوبة بخط اليد. يقرأ DeepSeek OCR الأحرف بشكل جيد إلى حد معقول ولكنه يقطع التخطيط والعناوين ومعنى الحقل، مما يؤدي إلى بذل جهد أكبر للتنظيف. بالنسبة لرقمنة النماذج وأتمتتها في العالم الحقيقي، يعد Mistral OCR 3 هو الفائز الواضح.
أي واحد يجب أن تختار؟
حدد Mistral OCR 3 في حالة احتياجك إلى منتج OCR كامل يتضمن واجهة مستخدم وواجهة برمجة تطبيقات OCR واضحة. إنه مثالي في حالة تكلفة SaaS عالية الدقة والمتوقعة وتقييم إعادة بناء الجدول.
حدد DeepSeek-OCR عندما يكون مطلوبًا استضافته محليًا أو استضافته ذاتيًا. إنه يمنح المرونة والتحكم في عملية الاستدلال للفرق التي ترغب في التحكم في العمليات. من الممكن أن تلجأ العديد من الفرق إلى كليهما: ميسترال باعتباره خط الأنابيب الأساسي وديب سيك كنسخة احتياطية من المستندات الحساسة.
خاتمة
أصبحت البنية وسير العمل من الاهتمامات الرئيسية بسبب التغييرات في Mistral OCR 3. تحتوي عناصر التحكم في الجدول والتعليقات التوضيحية لاستخراج JSON والملعب على ميزات مثل واجهة المستخدم ويمكن أن تقلل من وقت التطوير. إنها واحدة من المنتجات القوية لذكاء المستندات. يوفر DeepSeek-OCR طريقة أخرى. فهو يعتبر التعرف الضوئي على الحروف (OCR) مشكلة ضغط تتعلق بـ LLM، ويوفر للمستخدمين حرية البنية التحتية. يوضح هذان النموذجان الفصل المستقبلي لتقنية التعرف الضوئي على الحروف.
الأسئلة المتداولة
ج: تكمن قوته الرئيسية في التركيز على الحفاظ على بنية المستندات بما في ذلك الجداول المعقدة وتسلسلات القراءة، وتحويل المستندات الممسوحة ضوئيًا إلى معلومات مفيدة.
ج: لديه القدرة على إنشاء جداول بتنسيق HTML، والتي تتمتع بميزة إضافية تتمثل في الحفاظ على البيانات المعقدة مثل الخلايا المدمجة والرؤوس متعددة الصفوف مما يضمن تكاملًا أكبر للبيانات.
ج: نعم، يوفر لك Doc AI Playground في AI Studio في Mistral إمكانية تحميل المستندات وتجربة ميزات التعرف الضوئي على الحروف.
قم بتسجيل الدخول لمواصلة القراءة والاستمتاع بالمحتوى الذي ينظمه الخبراء.
Source link



