เกณฑ์และเมทริกซ์ความสับสน

สมมติว่าคุณมีโมเดลการถดถอยเชิงลอจิสติกสําหรับการตรวจจับอีเมลสแปมซึ่งคาดการณ์ค่าระหว่าง 0 ถึง 1 ซึ่งแสดงถึงแนวโน้มที่อีเมลหนึ่งๆ จะเป็นสแปม การคาดการณ์ 0.50 หมายถึงความน่าจะเป็น 50% ที่อีเมลจะเป็นจดหมายขยะ การคาดการณ์ 0.75 หมายถึงความน่าจะเป็น 75% ที่อีเมลจะเป็นจดหมายขยะ และอื่นๆ

คุณต้องการติดตั้งใช้งานรูปแบบนี้ในแอปพลิเคชันอีเมลเพื่อกรองจดหมายขยะไปยังโฟลเดอร์อีเมลแยกต่างหาก แต่คุณจะต้องแปลงเอาต์พุตตัวเลขดิบของโมเดล (เช่น 0.75) ออกเป็น 2 หมวดหมู่ ได้แก่ "สแปม" หรือ "ไม่ใช่สแปม"

หากต้องการทําการเปลี่ยนรูปแบบนี้ ให้เลือกความน่าจะเป็นเกณฑ์ที่เรียกว่าเกณฑ์การจัดประเภท จากนั้นระบบจะกําหนดตัวอย่างที่มีความน่าจะเป็นสูงกว่าเกณฑ์เป็นคลาสที่เป็นบวก ซึ่งเป็นคลาสที่คุณกําลังทดสอบ (ในที่นี้คือ spam) และกำหนดตัวอย่างที่มีความน่าจะเป็นต่ำกว่าเป็นคลาสที่เป็นลบ ซึ่งเป็นคลาสทางเลือก (ในที่นี้คือ not spam)

คลิกที่นี่เพื่อดูรายละเอียดเพิ่มเติมเกี่ยวกับเกณฑ์การจัดประเภท

คุณอาจสงสัยว่าจะเกิดอะไรขึ้นหากคะแนนที่คาดการณ์เท่ากับเกณฑ์การจัดประเภท (เช่น คะแนน 0.5 เมื่อเกณฑ์การจัดประเภทคือ 0.5 ด้วย) การจัดการสำหรับกรณีนี้ขึ้นอยู่กับการใช้งานที่เลือกสำหรับรูปแบบการจัดประเภท ไลบรารี Keras จะคาดการณ์คลาสเชิงลบหากคะแนนและเกณฑ์เท่ากัน แต่เครื่องมือ/เฟรมเวิร์กอื่นๆ อาจจัดการเคสนี้แตกต่างกัน

สมมติว่าโมเดลให้คะแนนอีเมลฉบับหนึ่งเป็น 0.99 ซึ่งคาดการณ์ว่าอีเมลดังกล่าวมีโอกาสเป็นจดหมายขยะ 99% และอีกฉบับหนึ่งเป็น 0.51 ซึ่งคาดการณ์ว่าอีเมลดังกล่าวมีโอกาสเป็นจดหมายขยะ 51% หากคุณตั้งค่าเกณฑ์การจัดประเภทเป็น 0.5 โมเดลจะจัดประเภททั้ง 2 อีเมลว่าเป็นจดหมายขยะ หากคุณตั้งค่าเกณฑ์เป็น 0.95 จะมีเพียงอีเมลที่มีคะแนน 0.99 เท่านั้นที่จัดว่าเป็นจดหมายขยะ

แม้ว่า 0.5 อาจดูเหมือนเกณฑ์ที่เข้าใจง่าย แต่ก็ไม่เหมาะในกรณีที่ต้นทุนของการแยกประเภทที่ไม่ถูกต้องประเภทหนึ่งสูงกว่าอีกประเภทหนึ่ง หรือในกรณีที่คลาสไม่สมดุล หากมีอีเมลเพียง 0.01% ที่เป็นจดหมายขยะ หรือหากการแยกอีเมลที่ถูกต้องไปยังโฟลเดอร์ที่ไม่ถูกต้องส่งผลเสียมากกว่าการปล่อยให้จดหมายขยะเข้ามาในกล่องจดหมาย การติดป้ายกำกับอีเมลที่โมเดลพิจารณาว่ามีแนวโน้มเป็นจดหมายขยะอย่างน้อย 50% เป็นจดหมายขยะจะทำให้เกิดผลลัพธ์ที่ไม่พึงประสงค์

เมตริกความสับสน

คะแนนความน่าจะเป็นไม่ใช่ความจริงหรือข้อมูลพื้นฐาน ผลลัพธ์ที่เป็นไปได้ของเอาต์พุตแต่ละรายการจากตัวแยกประเภทแบบไบนารีมี 4 รายการ สําหรับตัวอย่างตัวแยกประเภทสแปม หากคุณจัดวางข้อมูลที่เป็นความจริงเป็นคอลัมน์และการคาดการณ์ของโมเดลเป็นแถว ตารางต่อไปนี้ซึ่งเรียกว่าเมทริกซ์ความสับสนจะแสดงผลลัพธ์

ผลบวกจริง ลบจริง
ผลบวกที่คาดการณ์ True Positive (TP): อีเมลที่เป็นสแปมที่จัดประเภทเป็นอีเมลสแปมอย่างถูกต้อง ข้อความเหล่านี้คือข้อความสแปมที่ระบบส่งไปยังโฟลเดอร์จดหมายขยะโดยอัตโนมัติ การตรวจพบที่ผิดพลาด (FP): อีเมลที่ไม่ใช่จดหมายขยะแต่ได้รับการจัดประเภทเป็นจดหมายขยะ อีเมลเหล่านี้เป็นอีเมลที่ถูกต้องซึ่งปรากฏในโฟลเดอร์จดหมายขยะ
เชิงลบที่คาดการณ์ ผลลบลวง (FN): อีเมลสแปมที่จัดประเภทไม่ถูกต้องว่าเป็นไม่ใช่สแปม อีเมลเหล่านี้เป็นอีเมลขยะที่ไม่ได้ถูกตัวกรองจดหมายขยะจับได้และส่งไปยังกล่องจดหมาย True Negative (TN): อีเมลที่ไม่ใช่จดหมายขยะซึ่งจัดประเภทอย่างถูกต้องว่าไม่ใช่จดหมายขยะ อีเมลเหล่านี้เป็นอีเมลที่ถูกต้องซึ่งส่งไปยังกล่องจดหมายโดยตรง

โปรดทราบว่าผลรวมในแต่ละแถวแสดงผลบวกที่คาดการณ์ทั้งหมด (TP + FP) และผลลบที่คาดการณ์ทั้งหมด (FN + TN) โดยไม่คำนึงถึงความถูกต้อง ส่วนผลรวมในแต่ละคอลัมน์จะแสดงผลบวกจริงทั้งหมด (TP + FN) และผลลบจริงทั้งหมด (FP + TN) โดยไม่คำนึงถึงการจัดประเภทโมเดล

เมื่อผลรวมของรายการเชิงบวกจริงไม่ได้ใกล้เคียงกับผลรวมของรายการเชิงลบจริง แสดงว่าชุดข้อมูลไม่สมดุล อินสแตนซ์ของชุดข้อมูลที่ไม่สมดุลอาจเป็นชุดรูปภาพเมฆหลายพันรูป โดยเมฆประเภทที่หายากซึ่งคุณสนใจ เช่น เมฆรูปเกลียว ปรากฏเพียงไม่กี่ครั้ง

ผลของเกณฑ์ที่มีต่อผลบวกจริงและผลบวกลวง รวมถึงผลลบ

โดยปกติแล้ว เกณฑ์ที่แตกต่างกันจะส่งผลให้ผลบวกจริงและผลบวกลวง รวมถึงผลลบจริงและผลลบลวงมีจำนวนไม่เท่ากัน วิดีโอต่อไปนี้อธิบายสาเหตุของปัญหานี้

ลองเปลี่ยนเกณฑ์ด้วยตนเอง

วิดเจ็ตนี้มีชุดข้อมูลของของเล่น 3 ชุด ได้แก่

  • แยก ซึ่งโดยทั่วไปแล้วตัวอย่างเชิงบวกและตัวอย่างเชิงลบจะแยกแยะกันได้ดี โดยตัวอย่างเชิงบวกส่วนใหญ่จะมีคะแนนสูงกว่าตัวอย่างเชิงลบ
  • ไม่แยก ซึ่งตัวอย่างเชิงบวกจำนวนมากมีคะแนนต่ำกว่าตัวอย่างเชิงลบ และตัวอย่างเชิงลบจำนวนมากมีคะแนนสูงกว่าตัวอย่างเชิงบวก
  • ไม่สมดุล มีตัวอย่างของคลาสเชิงบวกเพียงไม่กี่รายการ

ทดสอบความเข้าใจ

1. ลองจินตนาการถึงโมเดลการจัดประเภทฟิชชิงหรือมัลแวร์ซึ่งเว็บไซต์ฟิชชิงและมัลแวร์อยู่ในคลาสที่มีป้ายกำกับ 1 (จริง) และเว็บไซต์ที่ไม่เป็นอันตรายอยู่ในคลาสที่มีป้ายกำกับ 0 (เท็จ) โมเดลนี้จัดประเภทเว็บไซต์ที่ถูกต้องเป็นมัลแวร์อย่างไม่ถูกต้อง ฟีเจอร์นี้เรียกว่าอะไร
ผลบวกลวง
ตัวอย่างเชิงลบ (เว็บไซต์ที่ถูกต้อง) ได้รับการจัดประเภทอย่างไม่ถูกต้องเป็นตัวอย่างเชิงบวก (เว็บไซต์มัลแวร์)
ผลบวกจริง
ผลบวกแท้จริงคือเว็บไซต์ที่เป็นมัลแวร์ซึ่งจัดว่าเป็นมัลแวร์อย่างถูกต้อง
ผลลบลวง
ผลลัพธ์ลบที่ไม่ถูกต้องคือเว็บไซต์มัลแวร์ที่จัดประเภทอย่างไม่ถูกต้องว่าเป็นเว็บไซต์ที่ถูกต้อง
ผลลบจริง
ผลลัพธ์เชิงลบที่แท้จริงคือเว็บไซต์ที่ถูกกฎหมายซึ่งจัดประเภทอย่างถูกต้องว่าเป็นเว็บไซต์ที่ถูกกฎหมาย
2. โดยทั่วไป จะเกิดอะไรขึ้นกับจํานวนผลบวกลวงเมื่อเกณฑ์การจัดประเภทเพิ่มขึ้น แล้วผลบวกจริงล่ะ ลองใช้แถบเลื่อนด้านบน
ทั้งผลบวกจริงและผลบวกลวงจะลดลง
เมื่อเกณฑ์สูงขึ้น โมเดลมีแนวโน้มที่จะคาดการณ์ผลบวกโดยรวมน้อยลง ทั้งผลบวกจริงและผลบวกลวง ตัวแยกประเภทสแปมที่มีเกณฑ์ .9999 จะติดป้ายกำกับอีเมลว่าเป็นจดหมายขยะก็ต่อเมื่อพิจารณาแล้วว่าการแยกประเภทมีแนวโน้มอย่างน้อย 99.99% ซึ่งหมายความว่ามีแนวโน้มต่ำมากที่จะติดป้ายกำกับอีเมลที่ถูกต้องว่าเป็นจดหมายขยะ แต่ก็อาจพลาดจดหมายขยะจริงด้วย
ทั้งผลบวกจริงและผลบวกลวงจะเพิ่มขึ้น
ใช้แถบเลื่อนด้านบนเพื่อลองตั้งค่าเกณฑ์เป็น 0.1 แล้วลากเป็น 0.9 จะเกิดอะไรขึ้นกับจํานวนผลบวกลวงและผลบวกจริง
ผลบวกจริงเพิ่มขึ้น ผลบวกลวงลดลง
ใช้แถบเลื่อนด้านบนเพื่อลองตั้งค่าเกณฑ์เป็น 0.1 แล้วลากเป็น 0.9 จะเกิดอะไรขึ้นกับจํานวนผลบวกลวงและผลบวกจริง
3. โดยทั่วไป จะเกิดอะไรขึ้นกับจํานวนผลลบที่ผิดพลาดเมื่อเกณฑ์การจัดประเภทเพิ่มขึ้น แล้วผลลบจริงล่ะ ลองใช้แถบเลื่อนด้านบน
ทั้งผลลบจริงและผลลบเท็จจะเพิ่มขึ้น
เมื่อเกณฑ์เพิ่มขึ้น โมเดลมีแนวโน้มที่จะคาดการณ์ผลลัพธ์เชิงลบโดยรวมมากขึ้น ทั้งผลลัพธ์เชิงลบจริงและเท็จ เมื่อใช้เกณฑ์ที่สูงมาก อีเมลเกือบทั้งหมดทั้งที่เป็นจดหมายขยะและไม่ใช่จดหมายขยะจะจัดประเภทเป็นไม่ใช่จดหมายขยะ
ทั้งผลบวกลวงและผลลบลวงจะลดลง
ใช้แถบเลื่อนด้านบนเพื่อลองตั้งค่าเกณฑ์เป็น 0.1 แล้วลากเป็น 0.9 จะเกิดอะไรขึ้นกับจํานวนผลลบเท็จและผลลบจริง
ผลลบจริงเพิ่มขึ้น ผลลบลวงลดลง
ใช้แถบเลื่อนด้านบนเพื่อลองตั้งค่าเกณฑ์เป็น 0.1 แล้วลากเป็น 0.9 จะเกิดอะไรขึ้นกับจํานวนผลลบเท็จและผลลบจริง