لنفترض أنّ لديك نموذج انحدار لوجستي لرصد الرسائل الإلكترونية غير المرغوب فيها يتنبأ بقيمة تتراوح بين 0 و1، ما يمثّل احتمال أن تكون رسالتك الإلكترونية معيّنة غير مرغوب فيها. يشير التوقع 0.50 إلى احتمال بنسبة% 50 أن تكون الرسالة الإلكترونية غير مرغوب فيها، ويشير التوقع 0.75 إلى احتمال بنسبة% 75 أن تكون الرسالة الإلكترونية غير مرغوب فيها، وما إلى ذلك.
تريد نشر هذا النموذج في تطبيق بريد إلكتروني لفلترة الرسائل غير المرغوب فيها في
مجلد بريد إلكتروني منفصل. ولكن لإجراء ذلك، عليك تحويل القيمة الرقمية التلقائية للنموذج (مثل 0.75
) إلى إحدى الفئتَين التاليتَين: "محتوى غير مرغوب فيه" أو "محتوى
غير غير مرغوب فيه".
لإجراء هذا التحويل، عليك اختيار حدّ احتمالي يُعرف باسم
حدّ التصنيف.
بعد ذلك، يتمّ إسناد الأمثلة التي تزيد احتماليتها عن الحدّ الأدنى إلى الفئة الموجبة، وهي الفئة التي تختبِرها (هنا، spam
). ويتمّ إسناد الأمثلة التي تقلّ احتماليتها إلى الفئة السالبة، وهي الفئة البديلة (هنا، not spam
).
انقر هنا للحصول على مزيد من التفاصيل حول الحدّ الأدنى للتصنيف
قد تتساءل: ماذا يحدث إذا كانت النتيجة المتوقّعة مساوية لمستوى التصنيف (على سبيل المثال، نتيجة 0.5 حيث يكون مستوى التصنيف هو 0.5 أيضًا)؟ يعتمد التعامل مع هذا الحالة على طريقة التنفيذ المحدّدة التي تم اختيارها لنموذج الترتيب. تتوقّع مكتبة Keras الفئة السلبية إذا كانت النتيجة والقيمة الحدّية متساويتين، ولكن قد تتعامل الأدوات/الأطر الأخرى مع هذا الموقف بشكل مختلف.
لنفترض أنّ النموذج يمنح رسالة إلكترونية واحدة درجة 0.99، ما يعني أنّه يتنبأ بأنّ احتمال أن تكون هذه الرسالة غير مرغوب فيها يبلغ 99%، ويمنح رسالة إلكترونية أخرى درجة 0.51، ما يعني أنّه يتنبأ بأنّ احتمال أن تكون هذه الرسالة غير مرغوب فيها يبلغ 51%. في حال ضبط الحدّ الأدنى للتصنيف على 0.5، سيصنّف النموذج كلتا الرسالتَين على أنّهما محتوى غير مرغوب فيه. في حال ضبط الحدّ الأدنى على 0.95، لن يتم تصنيف سوى الرسائل الإلكترونية التي تحصل على 0.99 كرسائل غير مرغوب فيها.
على الرغم من أنّ القيمة 0.5 قد تبدو كحدّ أدنى بديهي، إلا أنّه ليس من الجيد استخدامها إذا كانت تكلفة نوع واحد من التصنيفات الخاطئة أكبر من النوع الآخر، أو إذا كانت الفئات غير متوازنة. إذا كانت نسبة الرسائل غير المرغوب فيها تبلغ 0.01% فقط من الرسائل الإلكترونية، أو إذا كان وضع الرسائل الإلكترونية الصالحة في مجلد غير صحيح يؤدي إلى نتائج أسوأ من السماح بدخول الرسائل غير المرغوب فيها إلى البريد الوارد، يؤدي وضع علامة على أي محتوى يعتقد النموذج أنّ احتمال أن يكون غير مرغوب فيه يتجاوز% 50 باعتباره غير مرغوب فيه إلى نتائج غير مرغوب فيها.
مصفوفة نجاح التوقّعات
لا تشير نتيجة الاحتمالية إلى الواقع أو الحقيقة الأساسية. هناك أربع نتائج محتملة لكل ناتج من أحد المصنّفات الثنائية. في مثال مصنّف الرسائل غير المرغوب فيها، إذا وضّحت الحقائق الأساسية كأعمدة وتوقّعات النموذج كصفوف، سيكون الجدول التالي المُسمى مصفوفة الالتباس هو النتيجة:
النتيجة الإيجابية الفعلية | القيمة السلبية الفعلية | |
---|---|---|
نتيجة إيجابية متوقّعة | نتيجة إيجابية صحيحة (TP): رسالة إلكترونية غير مرغوب فيها تم تصنيفها بشكل صحيح على أنّها رسالة إلكترونية غير مرغوب فيها. هذه هي الرسائل غير المرغوب فيها التي يتم تلقائيًا إرسالها إلى مجلد الرسائل غير المرغوب فيها. | نتيجة إيجابية خاطئة (FP): رسالة إلكترونية ليست غير مرغوب فيها تم تصنيفها خطأً على أنّها غير مرغوب فيها. هذه هي الرسائل الإلكترونية الصالحة التي تنتهي في مجلد الرسائل غير المرغوب فيها. |
القيمة السلبية المتوقّعة | نتيجة سالبة خاطئة (FN): رسالة إلكترونية غير مرغوب فيها تم تصنيفها بشكل خاطئ على أنّها ليست رسالة غير مرغوب فيها. هذه هي رسائل البريد الإلكتروني غير المرغوب فيها التي لا يتم اكتشافها من خلال فلتر الرسائل غير المرغوب فيها وتصل إلى البريد الوارد. | سلبي صحيح (TN): رسالة إلكترونية ليست غير مرغوب فيها تم تصنيفها بشكل صحيح على أنّها ليست غير مرغوب فيها. هذه هي الرسائل الإلكترونية المشروعة التي يتم إرسالها مباشرةً إلى البريد الوارد. |
يُرجى العلم أنّ المجموع في كل صف يعرض جميع القيم الإيجابية المتوقّعة (TP + FP) وجميع القيم السلبية المتوقّعة (FN + TN)، بغض النظر عن مدى صلاحيتها. في المقابل، يعرض المجموع في كل عمود كل القيم الإيجابية الحقيقية (TP + FN) وكل القيم السلبية الحقيقية (FP + TN) بغض النظر عن تصنيف النموذج.
عندما لا يكون إجمالي القيم الموجبة الفعلية قريبًا من إجمالي القيم السلبية الفعلية، تكون مجموعة البيانات غير متوازنة. قد يكون مثالاً على مجموعة البيانات غير المتوازنة مجموعة من آلاف صور السحب، حيث يظهر نوع السحب النادر الذي يهمّك، مثل السحب المتصاعدة، بضع مرات فقط.
تأثير الحدّ الأدنى على القيم الموجبة والسالبة الصحيحة والخاطئة
تؤدي الحدود الدنيا المختلفة عادةً إلى أعداد مختلفة من حالات الموجب الخاطئ والموجب الصحيح والسالب الخاطئ والسالب الصحيح. يوضّح الفيديو التالي سبب حدوث ذلك.
جرِّب تغيير الحدّ الأدنى بنفسك.
تتضمّن هذه الأداة المصغّرة ثلاث مجموعات بيانات للألعاب:
- مفصَّلة، حيث يتم بشكل عام التمييز جيدًا بين الأمثلة الإيجابية والسلبية، مع حصول معظم الأمثلة الإيجابية على نتائج أعلى من الأمثلة السلبية
- غير مفصولة، حيث تحقّق العديد من الأمثلة الإيجابية نتائج أقل من الأمثلة السلبية، وتحقّق العديد من الأمثلة السلبية نتائج أعلى من الأمثلة الإيجابية.
- غير متوازنة، إذ تحتوي على عدد قليل من الأمثلة على الفئة الموجبة