Table of Contents
数学
考的都是简单题,面试的时候也主要看你对于数学的“悟性”
别去刷题了,就只要给你一个名词你能清楚地讲出来就好。
高等数学
-
线性方程组求解
-
矩阵的运算
-
多远函数极值判断
-
中心极限定理(证明,独立同分布的情况)
-
第一类和第二类错误
-
假设检验
-
原假设和备择假设能否互换
-
当x很小的时候sinx大于什么东西,我印象中是在x趋于0时sinx > x,我就回答了x,然后他看我回答挺快的就问为什么,直接是x-sinx然后求导证明单调就完事了
离散数学
-
数理逻辑。包括命题、公式的等价和蕴含等。
-
集合和关系。包括集合和集合的运算、关系等
-
数函数和递推关系。数函数的母函数、递推关系等。
概率论
方差
-
*方差的计算方法,他会提前写好一个方差表达式问你对不对,如果不对的话请写出正确的表达式;两种方差的计算公式,样本方差中的n-1含义;**
-
对于未整理的原始数据,方差的计算公式为:
-
对于分组的数据,方差的计算公式为:
-
fi代表每个分组的数据的数量
-
-
样本方差:样本方差的分母是总频数减一去除离差平方和,其中样本数据个数减1即n-1称为自由度
-
未分组数据:
-
分组数据:
-
未分组数据:
-
分组数据:
-
-
常用分布的方差:
-
概率密度函数:连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。 而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分。 当概率密度函数存在的时候,累积分布函数是概率密度函数的积分。
-
两点分布(伯努利分布,0-1分布):p(1-p)
-
二项分布:n次独立的伯努利试验。每次试验只有两种可能的结果,梁红结果发生与否相互独立,与其他各次试验的结果无关
-
-
因X(k)相互独立,所以期望:
方差:
-
-
泊松分布:
-
-
当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。通常当n≧20,p≦0.05时,就可以用泊松公式近似得计算。
-
泊松分布的期望和方差均为
-
-
均匀分布:
-
堆成概率分布,在相同长度间隔的分布概率是等可能的。均匀分布由两个参数a和b定义,它们在数轴上的最小值和最大值,缩写为U(a,b)
-
-
-
-
-
指数分布
-
-
正态分布
-
-
t分布:一个正态分布除以一个χ2分布
-
而t分布只有一个参数,也就是t分布的自由度,t分布关于x=0对称,自由度的改变只改变t分布密度函数的形状大小,而不改变其位置。
-
E(T)=0
-
D(T)=n/(n-2),n>2
-
-
F分布:两个χ2分布除以自己的自由度后做比形成的分布
-
期望E(F)=n/(n-2),方差D(F)=n2(2m+2n-4)/m(n-2)2(m-4)
-
-
χ2分布(chi-square distribution,卡方分布):n个标准正态分布的平方和
-
E(χ2)=n 方差D(χ2)=2n
-
-
各个分布的应用
-
方差已知情况下求均值是Z检验。
-
方差未知求均值是t检验(样本标准差s代替总体标准差R,由样本平均数推断总体平均数)
-
均值方差都未知求方差是X^2^检验
-
两个正态分布样本的均值方差都未知情况下求两个总体的方差比值是F检验。
-
-
-
如果写一个程序计算方差,那么计算一次内存访问几次
贝叶斯公式
-
贝叶斯公式
先验概率:事件发生前的预判概率。可以是基于历史数据的统计,也可以由背景常识得出,也可以是人的主观观点给出。一般是单独事件概率
后验概率:事件发生后求反向条件概率。或者说,基于先验概率求得的反向条件概率。概率形式与条件概率相同。
条件概率:一个事件发生后另一个事件发生的概率。一般的形式基于P(x|y)表示y发生的条件下x发生的概率。
时间A在事件B发生的条件下的概率,与事件B在事件A的条件下的概率是不一样的。然而,这两者是有确定的关系的,贝叶斯定理就是这种关系的陈述。贝叶斯公式的一个用途在于通过已知的三个概率函数推出第四个。
P(y|x) = ( P(x|y) * P(y) ) / P(x)
-
P(y|x) 是后验概率,一般是我们求解的目标。
-
P(x|y) 是条件概率,又叫似然概率,一般是通过历史数据统计得到。一般不把它叫做先验概率,但从定义上也符合先验定义。
-
P(y) 是先验概率,一般都是人主观给出的。贝叶斯中的先验概率一般特指它。
-
P(x) 其实也是先验概率,只是在贝叶斯的很多应用中不重要(因为只要最大后验不求绝对值),需要时往往用全概率公式计算得到。
贝叶斯定理可以表述为:
-
后验概率=(可能性*先验概率)/标准化常量
-
后验概率与先验概率和相似度的乘积成正比
P(B|A)/P(B)也有时被称作标准相似度
-
后验概率 = 标准相似度*先验概率
正则化
-
岭回归
以下为计算误差的三种方式:
-
残差和(∑(Y−h(X)))(∑(Y−h(X))) 可能导致正负误差的相互抵消
-
残差绝对值和(∑|Y−h(X)|)(∑|Y−h(X)|) 绝对值会防止误差的相互抵消
-
残差平方和(∑(Y−h(X))2)(∑(Y−h(X))2) 实际使用最多的方法,因为该方法惩罚大误差的力度大于惩罚小误差的力度,因此较大误差和较小误差对该公式值影响有很大的差别。同时该公式很好求微分,有利于选择最佳拟合直线。
batch gradient descent: 中的batch代表每次都要遍历整个训练集合。当m值非常大的时候需要遍历整个数据库才能下降一步。这个时候应该使用
随机梯度下降:更新参数时,不必遍历整个数据集,只需要一个实例就够了。这个算法可以达到很高的效果,但是遍历次数会增多,不能精确收敛到最优值等问题。这个方法被称为增量梯度下降,或者随机梯度下降。
可以直接求出参数值,而不用迭代的方法,正规方程法:
为了求得最小值,将关于倒数设成0向量,根据式子解出。称为正则方程组。
正则方程方法求解过程中,x转置乘以x不可逆的情况下,
线性回归
求解损失函数最小值有两种方法:梯度下降法和正规方程
-
特征缩放:对特征数据进行归一化操作,进行特征缩放的好处:一个是提升模型的收敛速度,将扁平状的椭圆缩放成原型,通过梯度下降方法寻找梯度方向最终将走垂直于等高线的之子形路线,迭代速度慢。而是能够提升模型的精度。
-
学习率的选取:如果较小,迭代次数过多,收敛速度慢。如果过大,可能会跳过最优解,最终无法收敛
过拟合的解决:
-
丢弃一些对我们最终预测结果影响不大的特征,通过==PCA==算法来选取
-
使用正则化技术,保留所有特征,但是减小特征前面参数θ的大小,具体就是修改线性回归中损失函数的形式。、
岭回归与Lasso回归
岭回归与Lasso回归的出现是为了解决线性回归出现的过拟合,以及通过正规方程方法求解θ的过程中出现的x转置乘以x不可逆这两类问题的,这两种回归均通过在损失函数中引入正则化项来达到目的,具体三者的损失函数对比见下图:
λ称为正则化参数,如果λ选取过大,会把所有参数θ均最小化,造成欠拟合,如果λ选取过小,会导致对过拟合问题解决不当,因此λ的选取是一个技术活。
最小化新的目标函数的时候也要同时考虑到beta的大小,随着正则化参数的增大,供线性的影响越来越小,在不断增大惩罚系数的过程中,画下估计参数k的变化情况,岭迹
其他
-
矩阵对角化:还木有看懂
定义:矩阵通过变换化为对角矩阵的过程都叫做对角化。
-
一般矩阵对角化:相似对角化,将矩阵通过相似变换化成一个对角阵,相似矩阵的迹、秩、特征值是相同的。通过相似对角化得到的相似对角阵一定是这个矩阵的特征值对角阵。而对应矩阵P的每一列则是与其相应特征值的位置一一对应。
-
凸优化没搞懂
“一旦将一个实际问题表述为凸优化问题,大体上意味着相应问题已经得到彻底解决,这是非凸的优化问题所不具有的性质。”
凸优化之所以如此重要,是因为:
1、其应用非常广泛,机器学习中很多优化问题都要通过凸优化来求解;
2、在非凸优化中,凸优化同样起到重要的作用,很多非凸优化问题,可以转化为凸优化问题来解决;
3、如上引用所述,凸优化问题可以看作是具有成熟求解方法的问题,而其他优化问题则未必。
机器学习简单来说,主要做的就是优化问题,先初始化一下权重参数,然后利用优化方法来优化这个权重,直到准确率不再是上升,迭代停止
-
逻辑回归
-
求函数的零点的方法(二分法、牛顿迭代、坐标下降(上升)法……)
大数定理中心极限定理
-
大数定理
当大量重复同一个实验时,实验的平均结果会接近于期望值重复次数越多越接近
大数定律,是概率论中讨论随机变量和的平均值的收敛情况,是数理统计学中参数估计的理论基础。
-
中心极限定理
是概率论中讨论随机变量和的分布以正态分布为极限的一组定理,这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量近似服从正态分布的条件。
线性代数
幺元
-
幺元的定义
单位元是集合里的一种特别的元素,与该集合里的二元运算有关。当单位元和其他元素结合时,并不会改变那些元素。单位元被使用在群和其他相关概念之中。
例如加法运算的幺元是0,乘法运算的幺元是1,幂运算的幺元是1(只为右单位元)