机器学习实战(MachineLearinginAction) 第二章 k-近邻算法_未知元组被指派到它的k个最近邻中的多数类-CSDN博客

本文链接：https://blog.csdn.net/claroja/article/details/79524671

k-近邻算法(k-Nearest Neighbors,KNN)
优点:精度高,对异常值不敏感,无数据输入假定
缺点:计算复杂度,空间复杂度高
适用数据范围:数值型(numeric values)和标称型(nominal values)

伪代码
1.计算已知类别数据集中的点与当前点之间的距离
2.按照距离递增次序排序
3.选取与当前点距离最小的k个点
4.确定前k个点所在类别的出现频率
5.返回前k个点出现频率最高的类别作为当前点的预测分类

未知元组被指派到它的k个最近邻中的多数类.当k=1时,未知数组被指派到最接近它的训练元组所在类.
最近邻也可以用于数值预测,即返回给定未知元组的实数值预测,分类器返回未知元组的k个最近邻的实数值标号的平均值.

问题1:特征不是连续的而是离散的,如颜色,如何计算距离?
1.比较两个样本对应属性的值,如果相同,距离为0,如果不同距离为1
2.将颜色特征转换为各个颜色的特征,并用1,0来表示
问题2:缺失值如何处理
1.如果都缺失,则假设为最大值
2.如果只有一个缺失,则取标准化之后到0或到1的最大值
问题3:如何确定k
1.通过实验验证,每次k增加1,来比较错误率

代码

def classify0(inX, dataSet, labels, k):
    """
    使用欧式距离计算两个向量点之间的距离

    :param inX: 预测向量
    :param dataSet: 训练样本集
    :param labels: 标签向量
    :param k: 选择最近邻的数目
    :return:
    """
    dataSetSize = dataSet.shape[0]  # 获得dataset的行数
    diffMat = tile(inX, (dataSetSize,1)) - dataSet  # 将输入的向量纵向拓展成和dataset相同的矩阵,并进行减法操作
    sqDiffMat = diffMat**2  # 计算距离的平方
    sqDistances = sqDiffMat.sum(axis=1)  # 计算平方和,横向相加
    distances = sqDistances**0.5  # 计算平方和的开方
    sortedDistIndicies = distances.argsort()  # 下标按从近到远排序
    classCount={}          
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]  # 选取前k个标签
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1  # 如果有则返回该标签的个数然后+1,如果没有则新建标签并设为0+1
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)  # 按标签数量多少排序
    return sortedClassCount[0][0]  # 返回数量最多的标签

归一化特征值

def autoNorm(dataSet):
    minVals = dataSet.min(0)  # 从列中获得最小值
    maxVals = dataSet.max(0)  # 从列中获得最大值
    ranges = maxVals - minVals  # 获得取值范围
    normDataSet = zeros(shape(dataSet))  #  创建新的矩阵
    m = dataSet.shape[0]
    normDataSet = dataSet - tile(minVals, (m,1))  # 所有元素减去对应列的最小值
    normDataSet = normDataSet/tile(ranges, (m,1))   #element wise divide
    return normDataSet, ranges, minVals

测试数据

group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
labels = ['A','A','B','B']

测试算法
通常提供已有数据的90%作为训练样本来训练分类器,而使用其余的10%数据去测试分类器,检测分类器的正确性.
错误率是分类器给出错误结果的次数除以测试数据的总数,完美分类器的错误率为0.

def datingClassTest():
    hoRatio = 0.50     
    datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')       #load data setfrom file
    normMat, ranges, minVals = autoNorm(datingDataMat)
    m = normMat.shape[0]
    numTestVecs = int(m*hoRatio)
    errorCount = 0.0
    for i in range(numTestVecs):
        classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
        print ("预测结果是: %d, 真实结果是: %d" % (classifierResult, datingLabels[i]))
        if (classifierResult != datingLabels[i]): errorCount += 1.0
    print ("错误率是: %f" % (errorCount/float(numTestVecs)))

应用:
1.推荐算法
2.手写数字识别

需要识别的数字使用图形软件,处理成具有相同的色彩和大小的黑白图像,并且用文本格式存储.
首先要将这些2维矩阵,处理成一维向量,作为这个字符的特征.

def img2vector(filename):
    returnVect = zeros((1,1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0,32*i+j] = int(lineStr[j])
    return returnVect