תהליך עבודה של יצירת אשכולות

כדי לקבץ את הנתונים, מבצעים את השלבים הבאים:

מכינים את הנתונים.
יוצרים מדד דמיון.
מריצים את אלגוריתם הקיבוץ.
פירוש התוצאות והתאמת הקיבוץ.

בדף הזה נסביר בקצרה על השלבים. נרחיב על כך בקטעים הבאים.

הכנת הנתונים

כמו בכל בעיה של למידת מכונה, צריך לבצע נורמליזציה, שינוי קנה מידה וטרנספורמציה של נתוני המאפיינים לפני אימון מודל או שינוי מדויק של מודל על סמך הנתונים האלה. בנוסף, לפני יצירת האשכולות, צריך לבדוק שהנתונים שהוכן מאפשרים לחשב במדויק את הדמיון בין הדוגמאות.

יצירת מדד דמיון

כדי שאלגוריתם הקיבוץ יוכל לקבץ נתונים, הוא צריך לדעת עד כמה דומות זו לזו שתי דוגמאות. כדי למדוד את הדמיון בין דוגמאות, אפשר ליצור מדד הדמיון. לשם כך, צריך להבין היטב את הנתונים.

הרצת אלגוריתם הקיבוץ

אלגוריתם צבירה משתמש במדד הדמיון כדי לקבץ נתונים. בקורס הזה נעשה שימוש ב-k-means.

פירוש התוצאות והתאמה

מאחר שהקיבוץ לא יוצר או כולל 'אמת' שאפשר לאמת את הפלט לפיה, חשוב לבדוק את התוצאה בהתאם לציפיות שלכם גם ברמת האשכולות וגם ברמת הדוגמאות. אם התוצאה נראית מוזרה או באיכות נמוכה, נסו את שלושת השלבים הקודמים. ממשיכים לבצע שינויים עד שהאיכות של הפלט עומדת בצרכים שלכם.

אלגוריתמים של יצירת אשכולות

תהליך הכנת נתונים