数学基础精要-CSDN博客

Table of Contents

数学

高等数学

离散数学

概率论

线性代数

数学

考的都是简单题，面试的时候也主要看你对于数学的“悟性”

别去刷题了，就只要给你一个名词你能清楚地讲出来就好。

高等数学

线性方程组求解
矩阵的运算
多远函数极值判断
中心极限定理（证明，独立同分布的情况）
第一类和第二类错误
假设检验
原假设和备择假设能否互换
当x很小的时候sinx大于什么东西，我印象中是在x趋于0时sinx > x,我就回答了x，然后他看我回答挺快的就问为什么，直接是x-sinx然后求导证明单调就完事了

离散数学

数理逻辑。包括命题、公式的等价和蕴含等。
集合和关系。包括集合和集合的运算、关系等
数函数和递推关系。数函数的母函数、递推关系等。

概率论

方差

*方差的计算方法，他会提前写好一个方差表达式问你对不对，如果不对的话请写出正确的表达式；两种方差的计算公式,样本方差中的n-1含义；**
对于未整理的原始数据，方差的计算公式为：
对于分组的数据，方差的计算公式为：
- fi代表每个分组的数据的数量
样本方差：样本方差的分母是总频数减一去除离差平方和，其中样本数据个数减1即n-1称为自由度
- 未分组数据：
- 分组数据：
- 未分组数据：
- 分组数据：
常用分布的方差：
- 概率密度函数：连续型随机变量的概率密度函数（在不至于混淆时可以简称为密度函数）是一个描述这个随机变量的输出值，在某个确定的取值点附近的可能性的函数。而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分。当概率密度函数存在的时候，累积分布函数是概率密度函数的积分。
- 两点分布（伯努利分布，0-1分布）：p(1-p)
- 二项分布：n次独立的伯努利试验。每次试验只有两种可能的结果，梁红结果发生与否相互独立，与其他各次试验的结果无关
  - 因X(k)相互独立，所以期望：
    
    方差：
- 泊松分布：
  - 当二项分布的n很大而p很小时，泊松分布可作为二项分布的近似，其中λ为np。通常当n≧20,p≦0.05时，就可以用泊松公式近似得计算。
  - 泊松分布的期望和方差均为
- 均匀分布：
  - 堆成概率分布，在相同长度间隔的分布概率是等可能的。均匀分布由两个参数a和b定义，它们在数轴上的最小值和最大值，缩写为U（a，b）
- 指数分布
- 正态分布
- t分布：一个正态分布除以一个χ2分布
  - 而t分布只有一个参数，也就是t分布的自由度，t分布关于x=0对称，自由度的改变只改变t分布密度函数的形状大小，而不改变其位置。
  - E（T）=0
  - D(T)=n/(n-2),n>2
- F分布：两个χ2分布除以自己的自由度后做比形成的分布
  - 期望E(F)=n/(n-2)，方差D(F)=n2(2m+2n-4)/m(n-2)2(m-4)
- χ2分布（chi-square distribution，卡方分布）：n个标准正态分布的平方和
  - E（χ2）=n 方差D(χ2)=2n
- 各个分布的应用
  - 方差已知情况下求均值是Z检验。
  - 方差未知求均值是t检验（样本标准差s代替总体标准差R，由样本平均数推断总体平均数）
  - 均值方差都未知求方差是X^2^检验
  - 两个正态分布样本的均值方差都未知情况下求两个总体的方差比值是F检验。
如果写一个程序计算方差，那么计算一次内存访问几次

贝叶斯公式

贝叶斯公式

先验概率：事件发生前的预判概率。可以是基于历史数据的统计，也可以由背景常识得出，也可以是人的主观观点给出。一般是单独事件概率

后验概率：事件发生后求反向条件概率。或者说，基于先验概率求得的反向条件概率。概率形式与条件概率相同。

条件概率：一个事件发生后另一个事件发生的概率。一般的形式基于P(x|y)表示y发生的条件下x发生的概率。

时间A在事件B发生的条件下的概率，与事件B在事件A的条件下的概率是不一样的。然而，这两者是有确定的关系的，贝叶斯定理就是这种关系的陈述。贝叶斯公式的一个用途在于通过已知的三个概率函数推出第四个。

P(A|B)是已知B发生后A的条件概率，也由于得自B的取值而被称作A的后验概率。
P(A)是A的先验概率（或边缘概率）。之所以称为"先验"是因为它不考虑任何B方面的因素。
P(B|A)是已知A发生后B的条件概率，也由于得自A的取值而被称作B的后验概率。
P(B)是B的先验概率或边缘概率。

P(y|x) = ( P(x|y) * P(y) ) / P(x)

P(y|x) 是后验概率，一般是我们求解的目标。
P(x|y) 是条件概率，又叫似然概率，一般是通过历史数据统计得到。一般不把它叫做先验概率，但从定义上也符合先验定义。
P(y) 是先验概率，一般都是人主观给出的。贝叶斯中的先验概率一般特指它。
P(x) 其实也是先验概率，只是在贝叶斯的很多应用中不重要（因为只要最大后验不求绝对值），需要时往往用全概率公式计算得到。

贝叶斯定理可以表述为：

后验概率=（可能性*先验概率）/标准化常量
后验概率与先验概率和相似度的乘积成正比

P(B|A)/P(B)也有时被称作标准相似度

后验概率 = 标准相似度*先验概率

正则化

岭回归

以下为计算误差的三种方式：

残差和(∑(Y−h(X)))(∑(Y−h(X))) 可能导致正负误差的相互抵消
残差绝对值和(∑|Y−h(X)|)(∑|Y−h(X)|) 绝对值会防止误差的相互抵消
残差平方和(∑(Y−h(X))2)(∑(Y−h(X))2) 实际使用最多的方法，因为该方法惩罚大误差的力度大于惩罚小误差的力度，因此较大误差和较小误差对该公式值影响有很大的差别。同时该公式很好求微分，有利于选择最佳拟合直线。

batch gradient descent: 中的batch代表每次都要遍历整个训练集合。当m值非常大的时候需要遍历整个数据库才能下降一步。这个时候应该使用

随机梯度下降：更新参数时，不必遍历整个数据集，只需要一个实例就够了。这个算法可以达到很高的效果，但是遍历次数会增多，不能精确收敛到最优值等问题。这个方法被称为增量梯度下降，或者随机梯度下降。

可以直接求出参数值，而不用迭代的方法，正规方程法：

为了求得最小值，将关于倒数设成0向量，根据式子解出。称为正则方程组。

正则方程方法求解过程中，x转置乘以x不可逆的情况下，

线性回归