非独立同分布(non-iid, non-independent and identically distributed) 是一个统计学和机器学习中的概念,用来描述数据样本之间的相互依赖性和不一致性。
1.独立同分布
我们先理解一下独立同分布(iid, independent and identically distributed) 的含义。iid通常是我们假设的理想情况,它要求数据样本具备以下两个特性:
-
独立性(Independence):每个样本是相互独立的,也就是说一个样本的出现不会影响其他样本的出现。比如在抛硬币实验中,每次抛硬币的结果是互不影响的。
-
同分布(Identically Distributed):每个样本都来自相同的分布,这意味着所有样本都遵循相同的概率分布。例如,在抛硬币的例子中,每次抛出的硬币都是公平的,有50%的概率为正面,50%的概率为反面。
非独立同分布(non-iid) 的情况就是违反了上面的假设,即数据之间存在依赖性或者它们不来自相同的概率分布。