
机器学习基础
文章平均质量分 91
机器学习基础算法和实践
胡小白的数据科学之路
https://www.zhihu.com/people/hu-jia-hao-10-2
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习中特征归一化
特征归一化的种类特征归一化,主要指的就是将原先的特征空间通过某种特定的方式映射到另一个特征空间,比如[0,1],[-1,1]等等。比较常用的归一化方法有1.min-max normalization2.mean normalization3.standardization(z-score)4.scaling to unit length总结起来,前3种方式都可以理解为先减去一个统计量,再除以一个统计量,而最后一种方式则是除以自身的长度。从原理上来说,减去一个统计量可以理解为像某种中心点平移,一原创 2021-05-01 19:05:54 · 774 阅读 · 0 评论 -
深入理解模型评估之ROC曲线和AUC
模型评估概述在选择不同模型对训练数据完成建模,并对测试数据完成预测后,我们需要面临的一个重要问题就是如何比较不同模型的优劣,因此如何定义模型评估的标准是至关重要的。分类问题,作为机器学习中最基础也是最重要的一类问题,目前已经有了许多模型评估的准则。这里以二分类问题为例,最简单粗暴的就是accuracy(准确率), 简单来说就是对于测试集来说,(预测正确的样本数)/(样本总数)。也就是下面混淆矩阵中的(TP+TN)/(TP+FP+FN+TN),但是仅使用准确率去评估模型是存在问题的,比如当我们的数据集正负原创 2021-03-19 16:57:56 · 1710 阅读 · 0 评论 -
理解PCA降维算法
PCA(Principal Component Analysis) 是一种常见的数据分析方式,常用于高维数据的降维,可用于提取数据的主要特征分量。PCA 的数学推导可以从最大可分型和最近重构性两方面进行,前者的优化条件为划分后方差最大,后者的优化条件为点到划分平面距离最小,这里我将从最大可分性的角度进行证明。1.向量表示与基变换我们先来介绍些线性代数的基本知识。1.1 内积两个向量的 A 和 B 内积我们知道形式是这样的:内积运算将两个向量映射为实数,其计算方式非常容易理解,但我们无法看出其物转载 2021-02-03 20:42:47 · 940 阅读 · 0 评论 -
关于GBDT和XGBoost的一点小总结
GBDT(Gradient Boosting Decision Tree)GBDT,中文直译可以叫做梯度提升树。是一种典型的基于Boosting集成思想的算法。在整个算法的运行过程中,我们每一个阶段训练一棵树(弱学习器),但是每一棵树的构建都是基于上一阶段的结果,这也充分体现了Boosting的思想,从错误中不断学习。具体是怎样的呢?假设我们的数据集D={(xi,yi)},i=1,2,3…,n。然后目前我们处于第m阶段,那么我们已经有了一棵树 Fm-1(x), 此时我们的损失函数是我们当然希望我们的L原创 2021-01-27 16:24:03 · 629 阅读 · 0 评论 -
解读支持向量机SVM
在深度学习流行之前,SVM是传统机器学习领域的一个经典算法。趁着最近回顾总结机器学习的劲头,准备写下这篇关于SVM的文章。大多数关于介绍SVM的文章都会花很大的篇幅进行大量的数学公式的推导,但是在这篇文章中我会更加偏重于我个人关于SVM原理以及思想的总结和感悟(好吧我承认只是懒得打公式…)好的,话不多说,我们开始。...原创 2021-01-25 18:27:42 · 476 阅读 · 0 评论 -
理解Dropout和BatchNormalization
Dropout原理相信对于了解机器学习的朋友们来说,dropout必定不陌生。dropout是一种在神经网络训练过程中防止过拟合的技术。简单来说,dropout就是指在每一轮模型权重的训练过程中,每一次随机剔除确定比例的神经元,然后只训练剩下的部分,更新权重参数。具体一点来说,在每一轮的训练过程中,我们以最初的复杂模型为基础,以pre-given 的比例随机剔除掉一些神经元,然后形成一个新的简化版神经网络结构。然后将输入通过这个简化板的网络进行前向传播,然后对误差进行反向传播来update这个简化网络原创 2020-11-14 13:24:57 · 1592 阅读 · 0 评论