ما هي نتيجة F1 في التعلم الآلي؟

في التعلم الآلي وعلوم البيانات، يعد تقييم النموذج لا يقل أهمية عن بنائه. غالبًا ما تكون الدقة هي المقياس الأول الذي يستخدمه الأشخاص، ولكنها قد تكون مضللة عندما تكون البيانات غير متوازنة. ولهذا السبب، يتم استخدام مقاييس مثل الدقة والاستدعاء ودرجة F1 على نطاق واسع. تركز هذه المقالة على نتيجة F1. وهو يشرح ما هي نتيجة F1، وسبب أهميتها، وكيفية حسابها، ومتى يجب استخدامها. تتضمن المقالة أيضًا مثالًا عمليًا لبايثون باستخدام scikit-Learn وتناقش الأخطاء الشائعة التي يجب تجنبها أثناء تقييم النموذج.
ما هي نتيجة F1 في التعلم الآلي؟
درجة F1، والمعروفة أيضًا باسم درجة F المتوازنة أو مقياس F، هي مقياس يستخدم لتقييم النموذج من خلال الجمع بين الدقة والاستدعاء في قيمة واحدة. ويشيع استخدامه في مشاكل التصنيف، خاصة عندما تكون البيانات غير متوازنة أو عندما تكون الإيجابيات والسلبيات الكاذبة مهمة.
تقيس الدقة عدد الحالات الإيجابية المتوقعة والتي تكون إيجابية بالفعل. بعبارات بسيطة، فهو يجيب على السؤال: من بين جميع الحالات الإيجابية المتوقعة، ما هو عدد الحالات الصحيحة؟ يقيس الاسترجاع، الذي يُطلق عليه أيضًا الحساسية، عدد الحالات الإيجابية الفعلية التي يحددها النموذج بشكل صحيح. إنه يجيب على السؤال: من بين جميع الحالات الإيجابية الحقيقية، كم عدد الحالات التي اكتشفها النموذج.
غالبًا ما يكون للدقة والاستدعاء مقايضة. تحسين أحدهما يمكن أن يقلل الآخر. تعالج درجة F1 هذه المشكلة باستخدام الوسط التوافقي، الذي يعطي وزنًا أكبر للقيم الأقل. ونتيجة لذلك، تكون درجة F1 عالية فقط عندما تكون الدقة والتذكر مرتفعين.
F1 = 2 ×
الدقة × الاستدعاء
الدقة + الاستدعاء
تتراوح درجة F1 من 0 إلى 1، أو من 0 إلى 100%. تشير الدرجة 1 إلى الدقة التامة والتذكر. تشير الدرجة 0 إلى أن الدقة أو الاستدعاء هي صفر أو كليهما. وهذا يجعل درجة F1 مقياسًا موثوقًا لتقييم نماذج التصنيف.
اقرأ أيضًا: 8 طرق لتحسين دقة نماذج التعلم الآلي
متى يجب عليك استخدام نتيجة F1؟
عندما لا تتمكن الدقة وحدها من تقديم صورة واضحة لأداء النموذج، يتم استخدام درجة F1. يحدث هذا غالبًا في البيانات غير المتوازنة. قد يكون النموذج دقيقًا للغاية في مثل هذه المواقف، فقط من خلال إجراء تنبؤات على غالبية الفصل. ومع ذلك، قد يفشل تمامًا في تحديد الأقليات. تعتبر درجة F1 مفيدة في حل هذه المشكلة لأنها تهتم بالدقة والتذكر.
تكون نتيجة F1 مفيدة عندما تكون الإيجابيات الكاذبة مهمة وكذلك السلبيات الكاذبة. فهو يوفر قيمة واحدة يقوم النموذج من خلالها بموازنة هاتين الفئتين من الأخطاء. للحصول على درجة F1 عالية على النموذج، يجب أن يكون أداءه جيدًا من حيث الدقة والتذكر. وهذا يجعلها أكثر موثوقية من الدقة في معظم المهام التي يتم تنفيذها في العالم الحقيقي.
حالات الاستخدام في العالم الحقيقي لنقاط F1
عادةً ما يتم استخدام درجة F1 في المواقف التالية:
- مشكلات التصنيف غير المتوازنة مثل تصفية البريد العشوائي واكتشاف الاحتيال والتشخيص الطبي.
- أنظمة استرجاع المعلومات والبحث، حيث يجب تحديد النتائج المفيدة مع أقل عدد ممكن من المصادفات الكاذبة.
- ضبط النموذج أو العتبة، عندما تكون الدقة والاستدعاء مهمين.
عندما يكون أحد أشكال الخطأ أكثر تكلفة بكثير من الآخر، فلا ينبغي تطبيق هذا النوع من الخطأ بشكل مستقل على درجة F1. قد يكون الاستدعاء أكثر أهمية في حالة تفويت حالة إيجابية. عندما تكون الإنذارات الكاذبة أكثر سوءًا، يمكن أن تكون الدقة هي نقطة الاهتمام العليا. عندما تكون الدقة والقدرة على التذكر متساويتين في الأهمية، فإن درجة F1 هي الأكثر ملاءمة.
كيفية حساب درجة F1 خطوة بخطوة
يمكن حساب درجة F1 بمجرد معرفة الدقة والتذكر. هذه المقاييس مشتقة من مصفوفة الارتباك في مشكلة التصنيف الثنائي.
تقيس الدقة عدد الحالات الإيجابية المتوقعة والتي تكون إيجابية بالفعل. يتم تعريفه على النحو التالي:
دقة =
TP
تب + فب
يتم استخدام الاستدعاء لتحديد عدد النتائج الإيجابية الفعلية التي يتم استرجاعها. يتم تعريفه على النحو التالي:
يتذكر =
TP
تب + الجبهة الوطنية
هنا، يمثل TP إيجابيات حقيقية، ويمثل FP إيجابيات كاذبة، ويمثل FN سلبيات كاذبة.
صيغة نقاط F1 باستخدام الدقة والاستدعاء
بعد معرفة الدقة (P) والتذكر (R)، يمكن تحديد درجة F1 على أنها الوسط التوافقي للاثنين:
F1 =
2 × ف × ر
ف + ر
يعطي الوسط التوافقي وزنًا أكبر للقيم الأصغر. ونتيجة لذلك، يتم سحب درجة F1 نحو المستوى الأدنى من الدقة أو الاستدعاء. على سبيل المثال، إذا كانت الدقة 0.90 والاستدعاء 0.10، فإن درجة F1 تكون 0.18 تقريبًا. إذا كانت كل من الدقة والاستدعاء 0.50، فإن درجة F1 تكون أيضًا 0.50.
وهذا يضمن عدم تحقيق درجة F1 عالية إلا عندما تكون الدقة والاستدعاء مرتفعين.
صيغة نقاط F1 باستخدام مصفوفة الارتباك
يمكن للمرء أيضًا كتابة نفس الصيغة باستخدام مصطلحات مصفوفة الارتباك:
F1 =
2 تب
2 تب + فب + فن
على سبيل المثال، عندما يتميز النموذج بدقة 0.75 واستدعاء 0.60، فإن درجة F1 هي:
F1 =
2 × 0.75 × 0.60
0.75 + 0.60
=
0.90
/
1.35
≈
0.67
في مسائل التصنيف متعددة الفئات، يتم حساب درجة F1 بشكل منفصل لكل فئة ثم يتم حساب متوسطها. يعامل المتوسط الكلي جميع الفئات على قدم المساواة، في حين أن المتوسط المرجح يحسب تكرار الفصل. في مجموعات البيانات غير المتوازنة للغاية، عادةً ما يكون F1 الموزون هو المقياس العام الأفضل. تحقق دائمًا من طريقة حساب المتوسط عند مقارنة أداء النموذج.
حساب درجة F1 في لغة بايثون باستخدام scikit-learn
مثال على التصنيف الثنائي هو كما يلي. سيتم حساب الدقة والاستدعاء ودرجة F1 بمساعدة scikit-Learn. ويساعد هذا في توضيح الطريقة العملية لهذه المقاييس.
لتبدأ، قم بإحضار الوظائف الضرورية.
from sklearn.metrics import precision_score, recall_score, f1_score, classification_report
الآن، حدد التسميات الحقيقية والتنبؤات النموذجية لعشر عينات.
# True labels
y_true = (1, 1, 1, 1, 1, 0, 0, 0, 0, 0) # 1 = positive, 0 = negative
# Predicted labels
y_pred = (1, 0, 1, 1, 0, 0, 0, 1, 0, 0)
بعد ذلك، قم بحساب الدقة والاستدعاء ودرجة F1 للفئة الإيجابية.
precision = precision_score(y_true, y_pred, pos_label=1)
recall = recall_score(y_true, y_pred, pos_label=1)
f1 = f1_score(y_true, y_pred, pos_label=1)
print("Precision:", precision)
print("Recall:", recall)
print("F1 score:", f1)
يمكنك أيضًا إنشاء تقرير تصنيف كامل.
print ("\nClassification Report:\n", classification_report(y_true, y_pred))
يؤدي تشغيل هذا الكود إلى إنتاج مخرجات مثل ما يلي:
Precision: 0.75 Recall: 0.6 F1 score: 0.6666666666666666
تقرير التصنيف:
Classification Report:
precision recall f1-score support
0 0.67 0.80 0.73 5
1 0.75 0.60 0.67 5
accuracy 0.70 10
macro avg 0.71 0.70 0.70 10
weighted avg 0.71 0.70 0.70 10
فهم مخرجات تقرير التصنيف في scikit-learn
دعونا نفسر هذه النتائج.
وفي الفئة الإيجابية (التسمية 1)، تبلغ الدقة 0.75. وهذا يعني أن ثلاثة أرباع العينات التي يفترض أنها إيجابية كانت إيجابية. تبلغ قيمة الاستدعاء 0.60 مما يشير إلى أن النموذج حدد 60% من جميع العينات الإيجابية الحقيقية بشكل صحيح. عند إضافة هاتين القيمتين، تكون النتيجة قيمة حوالي F1 تبلغ 0.67.
وفي حالة الفئة السلبية (التسمية 0)، يكون الاستدعاء أكبر عند 0.80. وهذا يدل على أن النموذج أكثر فعالية في تحديد السلبية من الإيجابية. وتبلغ دقته 70% بشكل عام، وهو ليس مقياسًا لفعالية النموذج في كل تصنيف منفصل.
يمكن رؤية ذلك بسهولة في تقرير التصنيف. ويقدم الدقة والاستدعاء وF1 حسب الفئة والماكرو والمتوسطات المرجحة. في هذه الحالة المتوازنة، تكون درجات F1 الكلية والمرجحة قابلة للمقارنة. تضع درجات F1 الموزونة في مجموعات البيانات غير المتوازنة مزيدًا من التركيز على الطبقة المهيمنة.
ويتجلى ذلك من خلال مثال عملي لحساب وتفسير نتيجة F1. سيتم استخدام درجة F1 في بيانات التحقق/الاختبار في المشاريع الحقيقية لتحديد توازن الإيجابيات الكاذبة والسلبيات الكاذبة كما هو الحال في النموذج الخاص بك.
أفضل الممارسات والمزالق الشائعة في استخدام نقاط F1
اختر F1 بناءً على هدفك:
- يتم استخدام F1 عندما يكون الاستدعاء والدقة على نفس القدر من الأهمية.
- ليست هناك حاجة لاستخدام F1 عندما يكون أحد أشكال الخطأ أكثر تكلفة.
- استخدم درجات F الموزونة عند الضرورة.
لا تعتمد على الفورمولا 1 وحدها:
- F1 هو مقياس مدمج.
- إنه يخفي التوازن بين الدقة والاستدعاء.
- قم دائمًا بمراجعة الدقة والتذكير بشكل منفصل.
تعامل مع عدم التوازن الطبقي بعناية:
- يعمل F1 بشكل جيد مقارنة بالدقة عند مواجهة بيانات غير متوازنة.
- تؤثر طرق المتوسط على النتيجة النهائية.
- يعامل Macro F1 جميع الفئات بالتساوي.
- يفضل F1 المرجح الطبقات المتكررة.
- اختر الطريقة التي تعكس أهدافك.
انتبه إلى التوقعات الصفرية أو المفقودة:
- يمكن أن تكون قيمة F1 صفرًا عندما لا يتم توقع الفصل مطلقًا.
- قد يشير هذا إلى وجود مشكلة في النموذج أو البيانات.
- قم دائمًا بفحص مصفوفة الارتباك.
استخدم F1 بحكمة لاختيار النموذج:
- يعمل F1 بشكل جيد لمقارنة النماذج.
- الاختلافات الصغيرة قد لا تكون ذات معنى.
- اجمع بين F1 ومعرفة المجال والمقاييس الأخرى.
خاتمة
تعتبر درجة F1 مقياسًا قويًا لتقييم نماذج التصنيف. فهو يجمع بين الدقة والتذكير في قيمة واحدة ويكون مفيدًا بشكل خاص عندما يكون كلا النوعين من الأخطاء مهمًا. وهو فعال بشكل خاص في حل المشكلات المتعلقة بالبيانات غير المتوازنة.
على عكس الدقة، تسلط درجة F1 الضوء على نقاط الضعف التي يمكن أن تخفيها الدقة. أوضحت هذه المقالة ماهية درجة F1 وكيفية حسابها وكيفية تفسيرها باستخدام أمثلة بايثون.
يجب استخدام درجة F1 بعناية، مثل أي مقياس تقييم. إنه يعمل بشكل أفضل عندما تكون الدقة والتذكر على نفس القدر من الأهمية. اختر دائمًا مقاييس التقييم بناءً على أهداف مشروعك. عند استخدامها في السياق الصحيح، تساعد درجة F1 في بناء نماذج أكثر توازناً وموثوقية.
الأسئلة المتداولة
ج: تشير درجة F1 البالغة 0.5 إلى أداء معتدل. ويعني ذلك أن النموذج يوازن بين الدقة والاستدعاء الضعيف وغالباً ما يكون مقبولاً فقط كخط أساس، خاصة في مجموعات البيانات غير المتوازنة أو نماذج المرحلة المبكرة.
ج: تعتمد النتيجة الجيدة في الفورمولا 1 على المشكلة. بشكل عام، تعتبر الدرجات التي تزيد عن 0.7 جيدة، وفوق 0.8 قوية، وفوق 0.9 ممتازة، خاصة في مهام التصنيف مع عدم التوازن الطبقي.
ج: لا، تشير درجات F1 المنخفضة إلى أداء أسوأ. نظرًا لأن F1 يجمع بين الدقة والاستدعاء، فإن القيمة الأعلى تعني دائمًا أن النموذج يقدم عددًا أقل من النتائج الإيجابية الخاطئة والسلبيات الخاطئة بشكل عام.
A. يتم استخدام درجة F1 عند وجود خلل في الصف أو عندما تكون الإيجابيات والسلبيات الكاذبة مهمة. فهو يوفر مقياسًا واحدًا يوازن بين الدقة والتذكر، على عكس الدقة التي يمكن أن تكون مضللة.
ج. يمكن أن تكون الدقة بنسبة 80% جيدة أو سيئة حسب السياق. في مجموعات البيانات المتوازنة قد يكون ذلك مقبولا، ولكن في المشاكل غير المتوازنة، يمكن أن تخفي الدقة العالية الأداء الضعيف في فئات الأقليات.
أ. استخدم الدقة لمجموعات البيانات المتوازنة حيث تكون جميع الأخطاء ذات أهمية متساوية. استخدم درجة F1 عند التعامل مع عدم التوازن في الفصل أو عندما تكون الدقة والتذكر أكثر أهمية من الصحة العامة.
قم بتسجيل الدخول لمواصلة القراءة والاستمتاع بالمحتوى الذي ينظمه الخبراء.
Source link



