高级机器学习与统计建模
在模型复杂度的背景下解释偏差 - 方差权衡(bias-variance trade-off)。它如何影响模型选择?
回答:
偏差 - 方差权衡描述了模型捕捉真实关系的能力(低偏差)与其对训练数据波动的敏感性(低方差)之间的冲突。高偏差(欠拟合)发生在简单模型中,而高方差(过拟合)发生在复杂模型中。最优的模型选择旨在实现平衡,通过在偏差和方差之间找到一个最佳点来最小化总误差。
什么是正则化(regularization),它在机器学习中为何重要?请命名并简要描述两种常见类型。
回答:
正则化是一种通过向损失函数添加惩罚项来防止过拟合的技术,它会抑制过于复杂的模型。它有助于提高模型的泛化能力。两种常见类型是 L1(Lasso)正则化,它添加了系数的绝对值,可能导致稀疏性(特征选择);以及 L2(Ridge)正则化,它添加了系数的平方值,并将它们向零收缩。
描述集成学习(ensemble learning)的概念。提供两种流行集成方法的示例及其核心思想。
回答:
集成学习通过组合多个独立模型的预测来提高整体预测性能和鲁棒性。它通常可以降低偏差和方差。Bagging(例如,Random Forest)在自举样本(bootstrapped samples)上独立训练多个模型,并对它们的预测进行平均。Boosting(例如,Gradient Boosting, AdaBoost)顺序训练模型,每个新模型都会纠正前一个模型所犯的错误。
何时会选择梯度提升机(Gradient Boosting Machine, GBM)而非随机森林(Random Forest),反之亦然?
回答:
当更高的预测精度至关重要时,选择 GBM,因为它通常通过迭代纠正错误而优于随机森林。然而,GBM 更容易过拟合,并且对超参数调整敏感。当可解释性、更快的训练速度或对噪声数据的鲁棒性是优先考虑因素时,选择随机森林,因为它不易过拟合且更易于调整。
解释生成模型(generative model)与判别模型(discriminative model)的区别。各举一个例子。
回答:
判别模型学习从输入到输出的直接映射(P(Y|X)),专注于决策边界。例如是逻辑回归(Logistic Regression)。生成模型学习输入和输出的联合概率分布(P(X,Y)),或 P(X|Y) 和 P(Y),这使其能够生成新的数据点。例如是朴素贝叶斯(Naive Bayes)或生成对抗网络(Generative Adversarial Network, GAN)。
什么是交叉验证(cross-validation),它对模型评估为何至关重要?
回答:
交叉验证是一种通过将数据划分为多个折(folds),在部分折上训练模型,并在剩余折上进行测试来评估模型性能的技术。这个过程会重复进行,并对结果进行平均。与单一的训练 - 测试分割相比,它提供了对模型泛化能力的更稳健的估计,减少了数据分割带来的偏差。
如何处理分类问题中的不平衡数据集(imbalanced datasets)?
回答:
处理不平衡数据集涉及多种技术,例如对少数类进行过采样(oversampling)(例如,SMOTE),对多数类进行欠采样(undersampling),或者使用不同的评估指标(例如,F1-score、精确率、召回率、AUC-ROC)而不是准确率。算法层面的方法,如成本敏感学习(cost-sensitive learning)或专门为不平衡设计的集成方法(例如,Balanced Random Forest),也可能有效。
线性回归模型有哪些假设,如果违反了会怎样?
回答:
线性回归的关键假设包括线性、误差独立性、同方差性(误差方差恒定)、误差正态性以及无多重共线性。违反这些假设可能导致有偏差或效率低下的系数估计、不正确的标准误以及不可靠的假设检验,使得模型的推断不可信。可能需要进行数据转换或使用替代模型。
解释机器学习中的“维度灾难”(curse of dimensionality)概念。
回答:
“维度灾难”是指在处理高维空间中的数据时出现的各种现象。随着特征数量的增加,数据变得极其稀疏,使得模型难以找到有意义的模式。这可能导致计算成本增加、过拟合,以及需要指数级更多的数据来维持数据的密度。
主成分分析(Principal Component Analysis, PCA)的目的是什么?何时会使用它?
回答:
PCA 是一种降维技术,它将高维数据转换为低维空间,同时尽可能保留方差。它通过寻找正交的主成分来实现这一点。当需要降低噪声、加速模型训练、可视化高维数据或解决具有许多相关特征的数据集中的多重共线性问题时,你会使用 PCA。