k-近邻算法(k-Nearest Neighbors,KNN)
优点:精度高,对异常值不敏感,无数据输入假定
缺点:计算复杂度,空间复杂度高
适用数据范围:数值型(numeric values)和标称型(nominal values)
伪代码
1.计算已知类别数据集中的点与当前点之间的距离
2.按照距离递增次序排序
3.选取与当前点距离最小的k个点
4.确定前k个点所在类别的出现频率
5.返回前k个点出现频率最高的类别作为当前点的预测分类
未知元组被指派到它的k个最近邻中的多数类.当k=1时,未知数组被指派到最接近它的训练元组所在类.
最近邻也可以用于数值预测,即返回给定未知元组的实数值预测,分类器返回未知元组的k个最近邻的实数值标号的平均值.
问题1:特征不是连续的而是离散的,如颜色,如何计算距离?
1.比较两个样本对应属性的值,如果相同,距离为0,如果不同距离为1
2.将颜色特征转换为各个颜色的特征,并用1,0来表示
问题2:缺失值如何处理
1.如果都缺失,则假设为最大值
2.如果只有一个缺失,则取标准化之后到0或到1的最大值
问题3:如何确定k
1.通过实验验证,每次k增加1,来比较错误率
代码
def classify0(inX, dataSet, labels, k):
"""
使用欧式距离计算两个向量点之间的距离
:param inX: 预测向量
:param dataSet: 训练样本集
:param labels: 标签向量
:param k: 选择最近邻的数目
:return:
"""
dataSetSize = dataSet.shape[0] # 获得dataset的行数
diffMat = tile(inX, (dataSetSize,1)) - dataSet # 将输入的向量纵向拓展成和dataset相同的矩阵,并进行减法操作
sqDiffMat = diffMat**2 # 计算距离的平方
sqDistances = sqDiffMat.sum(axis=1) # 计算平方和,横向相加
distances = sqDistances**0.5 # 计算平方和的开方
sortedDistIndicies = distances.argsort() # 下标按从近到远排序
classCount={}
for i in range(k):
voteIlabel = labels[sortedDistIndicies[i]] # 选取前k个标签
classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 # 如果有则返回该标签的个数然后+1,如果没有则新建标签并设为0+1
sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True) # 按标签数量多少排序
return sortedClassCount[0][0] # 返回数量最多的标签
归一化特征值
def autoNorm(dataSet):
minVals = dataSet.min(0) # 从列中获得最小值
maxVals = dataSet.max(0) # 从列中获得最大值
ranges = maxVals - minVals # 获得取值范围
normDataSet = zeros(shape(dataSet)) # 创建新的矩阵
m = dataSet.shape[0]
normDataSet = dataSet - tile(minVals, (m,1)) # 所有元素减去对应列的最小值
normDataSet = normDataSet/tile(ranges, (m,1)) #element wise divide
return normDataSet, ranges, minVals
测试数据
group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
labels = ['A','A','B','B']
测试算法
通常提供已有数据的90%作为训练样本来训练分类器,而使用其余的10%数据去测试分类器,检测分类器的正确性.
错误率是分类器给出错误结果的次数除以测试数据的总数,完美分类器的错误率为0.
def datingClassTest():
hoRatio = 0.50
datingDataMat,datingLabels = file2matrix('datingTestSet2.txt') #load data setfrom file
normMat, ranges, minVals = autoNorm(datingDataMat)
m = normMat.shape[0]
numTestVecs = int(m*hoRatio)
errorCount = 0.0
for i in range(numTestVecs):
classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
print ("预测结果是: %d, 真实结果是: %d" % (classifierResult, datingLabels[i]))
if (classifierResult != datingLabels[i]): errorCount += 1.0
print ("错误率是: %f" % (errorCount/float(numTestVecs)))
应用:
1.推荐算法
2.手写数字识别
需要识别的数字使用图形软件,处理成具有相同的色彩和大小的黑白图像,并且用文本格式存储.
首先要将这些2维矩阵,处理成一维向量,作为这个字符的特征.
def img2vector(filename):
returnVect = zeros((1,1024))
fr = open(filename)
for i in range(32):
lineStr = fr.readline()
for j in range(32):
returnVect[0,32*i+j] = int(lineStr[j])
return returnVect
3.选择题选项分析
3.1因为选择题选项是离散的,所以先要把abcd转换为01矩阵
3.2还有一种思想是在计算选择题不同选项之间的距离时,相同的选项距离为0,不同的选项,距离为1