一、热门面试题(随机优化算法)
1. 随机优化算法基础
Q1:什么是随机梯度下降(SGD)?它与批量梯度下降(BGD)的核心区别是什么?
A1:SGD每次迭代使用单个样本计算梯度,而BGD使用全部样本。SGD的方差高但计算速度快,适用于大规模数据;BGD梯度准确但计算成本高。
Q2:Adam算法的核心思想是什么?结合了哪些优化方法的优点?
A2:Adam结合动量(Momentum)和自适应学习率(RMSprop),通过一阶矩估计(均值)和二阶矩估计(方差)动态调整学习率,适用于非平稳目标函数。
Q3:写出Adam算法的参数更新公式,并解释各超参数(α, β₁, β₂, ε)的作用。
A3:
- 一阶矩估计:( m_t = \beta_1 m_{t-1} + (1-\beta_1)g_t )
- 二阶矩估计:( v_t = \beta_2 v_{t-1} + (1-\beta_2)g_t^2 )
- 偏差修正:( \hat{m}_t = m_t / (1-\beta_1^t), \hat{v}_t = v_t / (1-\b