聚类算法评价指标python实现_聚类算法及其评估指标

本文介绍了聚类算法的基本概念,包括K-Means、K-Mediods和DBSCAN等方法,讨论了它们的优缺点。同时,文章详细探讨了聚类评估指标,如霍普金斯统计量、轮廓系数等,以及如何确定数据集中的簇数。此外,还提到了聚类质量的测定方法,如外在和内在方法,帮助读者理解如何评估聚类效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

聚类(Clustering)-----物以类聚,人以群分。

1.Finding groups of objects

Objects similar to each other are in the same group

Objects are different from those in other groups

2.Unsupervised Learning

No labels

Data driven

3.Requirements:arbitrary shape,noise and outliers

4.K-means、K-mediods、DBSCAN、EM(Expectation Maximization)

聚类是观察式学习,而不是示例式的学习。

聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。

聚类分析还可以作为其他数据挖掘任务(如分类、关联规则)的预处理步骤。

聚类分析的方法

划分方法:

Construct various partitions and then evaluate them by some criterion,e.g.,minimizing the sum of square errors

Typical methods:k-means,k-medoids,CLARANS

层次方法:

Create a hierarchical decomposition of the set of data (or objects) using some criterion

Typical methods:Diana,Agnes,BIRCH,CAMELEON

基于密度的方法:

Based on connectivity and density functions

Typical methods:DBSCAN,OPTICS,DenClue

基于网格的方法:

Based on multiple-level granularity structure

Typical methods:STING,WaveCluster,CLIQUE

基于模型的方法:

A model is hypothesized for each of the clusters and tries to find the best fit of that model to each other

Typical methods:EM,SOM,COBWEB

基于频繁模式的方法:

Based on the analysis of frequent patterns

Typical methods:p-Cluster

基于约束的方法:

Clustering by considering user-specified or application-specific constraints

Typical methods:COD(obstacles),constrained clustering

基于链接的方法:

Objects are often linked together in various ways

Massive links can be used to cluster objects:SimRank,LinkClus

距离需要满足的性质:

非负性:d(i, j) > 0 if i ≠ j, and

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值