欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

长文章!机器学习笔试精选 100 题 [附详解

最编程 2024-04-29 20:12:56
...

机器学习是一门理论性和实战性都比较强的技术学科。在应聘机器学习相关工作岗位时,我们常常会遇到各种各样的机器学习问题和知识点。为了帮助大家对这些知识点进行梳理和理解,以便能够更好地应对机器学习笔试包括面试,红色石头将之前连载的一些笔试题进行整理,并额外增加了一些典型题目,汇总成 100 道选择题,每道题都有答案和详细的解析!建议收藏!

Q1. 下列说法正确的是?(多选)

A. AdaGrad 使用的是一阶导数

B. L-BFGS 使用的是二阶导数

C. AdaGrad 使用的是二阶导数

D. L-BFGS 使用的是一阶导数

答案:AB

解析:AdaGrad 是基于梯度下降算法的,AdaGrad算法能够在训练中自动的对学习速率 α 进行调整,对于出现频率较低参数采用较大的 α 更新;相反,对于出现频率较高的参数采用较小的 α 更新。Adagrad非常适合处理稀疏数据。很明显,AdaGrad 算法利用的是一阶导数。

640
640

L-BFGS 是基于牛顿优化算法的,牛顿优化算法使用的是二阶导数。

640
640

Q2. “增加卷积核的尺寸,一定能提高卷积神经网络的性能。” 这句话是否正确?

A. 正确

B. 错误

答案:B

解析:卷积核的尺寸是超参数,不一定增加其尺寸就一定增加神经网络的性能,需要验证选择最佳尺寸。

Q3. 假设你在卷积神经网络的第一层中有 5 个卷积核,每个卷积核尺寸为 7×7,具有零填充且步幅为 1。该层的输入图片的维度是 224×224×3。那么该层输出的维度是多少?

A. 217 x 217 x 3

B. 217 x 217 x 8

C. 218 x 218 x 5

D. 220 x 220 x 7

答案:C

解析:一般地,如果原始图片尺寸为 nxn,filter 尺寸为 fxf,则卷积后的图片尺寸为 (n-f+1)x(n-f+1),注意 f 一般为奇数。

若考虑存在填充和步幅,用 s 表示 stride 长度,p 表示 padding 长度,如果原始图片尺寸为 nxn,filter 尺寸为 fxf,则卷积后的图片尺寸为:

640
640

上式中,⌊⋯⌋ 表示向下取整。

此例中, n=224,p=0,f=7,s=1,因此,该层输出的尺寸为 218x218。

输出的第三个维度由滤波器的个数决定,即为 5。

Q4. 假如现在有个神经网络,激活函数是 ReLU,若使用线性激活函数代替 ReLU,那么该神经网络还能表征 XNOR 函数吗?

A. 可以

B. 不可以

答案:B

解析:异或(XNOR)关系是非线性的,线性激活函数只能解决线性问题,不能解决非线性问题。如果用线性激活代替 ReLU,则神经网络失去逼近非线性函数的能力。

Q5. 机器学习训练时,Mini-Batch 的大小优选为2个的幂,如 256 或 512。它背后的原因是什么?

A. Mini-Batch 为偶数的时候,梯度下降算法训练的更快

B. Mini-Batch 设为 2 的 幂,是为了符合 CPU、GPU 的内存要求,利于并行化处理

C. 不使用偶数时,损失函数是不稳定的

D. 以上说法都不对

答案:B

Q6. 下列哪种方法可以用来减小过拟合?(多选)

A. 更多的训练数据

B. L1 正则化

C. L2 正则化

D. 减小模型的复杂度

答案:ABCD

解析:增加训练样本、L1正则化、L2 正则化、减小模型复杂度都能有效避免发生过拟合。

Q7. 下列说法错误的是?

A. 当目标函数是凸函数时,梯度下降算法的解一般就是全局最优解

B. 进行 PCA 降维时,需要计算协方差矩阵

C. 沿负梯度的方向一定是最优的方向

D. 利用拉格朗日函数能解带约束的优化问题

答案:C

解析:沿负梯度的方向是函数值减少最快的方向但不一定就是最优方向。

Q8. K-Means 算法无法聚以下哪种形状的样本?

A. 圆形分布

B. 螺旋分布

C. 带状分布

D. 凸多边形分布

答案:B

解析:K-Means 算法是基于距离测量的,无法聚非凸形状的样本。

Q9. 向量 X=[1,2,3,4,-9,0] 的 L1 范数为?

A. 1

B. 19

C. 6

D. √111

答案:B

解析:L0 范数表示向量中所有非零元素的个数;L1 范数指的是向量中各元素的绝对值之和,又称“稀疏矩阵算子”;L2 范数指的是向量中各元素的平方和再求平方根。

本例中,L0 范数为 5,L1 范数为 19,L2 范数为 √111。

Q10. 关于 L1、L2 正则化下列说法正确的是?

A. L2 正则化能防止过拟合,提升模型的泛化能力,但 L1 做不到这点

B. L2 正则化技术又称为 Lasso Regularization

C. L1 正则化得到的解更加稀疏

D. L2 正则化得到的解更加稀疏

答案:C

解析:L1、L2 正则化都能防止过拟合,提升模型的泛化能力。L1 正则化技术又称为 Lasso Regularization。L1 正则化得到的解更加稀疏,如下图所示:

640
640

以二维情况讨论,上图左边是 L2 正则化,右边是 L1 正则化。从另一个方面来看,满足正则化条件,实际上是求解蓝色区域与黄色区域的交点,即同时满足限定条件和 Ein 最小化。对于 L2 来说,限定区域是圆,这样,得到的解 w1 或 w2 为 0 的概率很小,很大概率是非零的。

对于 L1 来说,限定区域是正方形,方形与蓝色区域相交的交点是顶点的概率很大,这从视觉和常识上来看是很容易理解的。也就是说,方形的凸点会更接近 Ein 最优解对应的 wlin 位置,而凸点处必有 w1 或 w2 为 0。这样,得到的解 w1 或 w2 为零的概率就很大了。所以,L1 正则化的解具有稀疏性。

扩展到高维,同样的道理,L2 的限定区域是平滑的,与中心点等距;而 L1 的限定区域是包含凸点的,尖锐的。这些凸点更接近 Ein 的最优解位置,而在这些凸点上,很多 wj 为 0。

Q11. 有 N 个样本,一般用于训练,一般用于测试。若增大 N 值,则训练误差和测试误差之间的差距会如何变化?

A. 增大

B. 减小

答案:B

解析:增加数据,能够有效减小过拟合,减小训练样本误差和测试样本误差之间的差距。

Q12. 假定你在神经网络中的隐藏层中使用激活函数 X。在特定神经元给定任意输入,你会得到输出 -0.01。X 可能是以下哪一个激活函数?

A. ReLU

B. tanh

C. Sigmoid

D. 以上都有可能

答案:B

解析:ReLU 的输出范围是 [0,+∞),tanh 的输出范围是 (-1,+1),Sigmoid 的输出范围是 (0,+1)。

Q13. k-NN 最近邻方法在什么情况下效果较好?

A. 样本较多但典型性不好

B. 样本较少但典型性好

C. 样本呈团状分布

D. 样本呈链状分布

答案:B

解析:K 近邻算法主要依靠的是周围的点,因此如果样本过多,则难以区分,典型性好的容易区分。

样本呈团状或链状都具有迷惑性,这样 kNN 就发挥不出其求近邻的优势了,整体样本应该具有典型性好,样本较少,比较适宜。

Q14. 下列方法中,可以用于特征降维的方法包括?(多选)

A. 主成分分析 PCA

B. 线性判别分析 LDA

C. AutoEncoder

D. 矩阵奇异值分解 SVD

E. 最小二乘法 LeastSquares

答案:ABCD

解析:主成分分析 PCA 、线性判别分析 LDA 、AutoEncoder、矩阵奇异值分解 SVD 都是用于特征降维的方法。最小二乘法是解决线性回归问题的算法,但是并没有进行降维。

Q15. 以下哪些方法不可以直接来对文本分类?

A. K-Means

B. 决策树

C. 支持向量机

D. kNN

答案:A

解析:K-Means 是无监督算法,它之所以不能称为分类是因为它之前并没有类别标签,因此只能聚类。

Q16. 在回归模型中,下列哪一项在权衡欠拟合(under-fitting)和过拟合(over-fitting)中影响最大?

A. 多项式阶数

B. 更新权重 w 时,使用的是矩阵求逆还是梯度下降

C. 使用常数项

答案:A

解析:选择合适的多项式阶数非常重要。如果阶数过大,模型就会更加复杂,容易发生过拟合;如果阶数较小,模型就会过于简单,容易发生欠拟合。如果有对过拟合和欠拟合概念不清楚的,见下图所示:

640
640

Q17. 假设你有以下数据:输入和输出都只有一个变量。使用线性回归模型(y=wx+b)来拟合数据。那么使用留一法(Leave-One Out)交叉验证得到的均方误差是多少?

640
640

A. 10/27

B. 39/27

C. 49/27

D. 55/27

答案:C

解析:留一法,简单来说就是假设有 N 个样本,将每一个样本作为测试样本,其它 N-1 个样本作为训练样本。这样得到 N 个分类器,N 个测试结果。用这 N个结果的平均值来衡量模型的性能。

对于该题,我们先画出 3 个样本点的坐标:

640
640

使用两个点进行线性拟合,分成三种情况,如下图所示:

640
640

第一种情况下,回归模型是 y = 2,误差 E1 = 1。

第二种情况下,回归模型是 y = -x + 4,误差 E2 = 2。

第三种情况下,回归模型是 y = -1/3x + 2,误差 E3 = 2/3。

则总的均方误差为:

640
640

Q18. 下列关于极大似然估计(Maximum Likelihood Estimate,MLE),说法正确的是(多选)?

A. MLE 可能并不存在

B. MLE 总是存在

C. 如果 MLE 存在,那么它的解可能不是唯一的

D. 如果 MLE 存在,那么它的解一定是唯一的

答案:AC

解析:如果极大似然函数 L(θ) 在极大值处不连续,一阶导数不存在,则 MLE 不存在,如下图所示:

640
640

另一种情况是 MLE 并不唯一,极大值对应两个 θ。如下图所示:

640
640

Q19. 如果我们说“线性回归”模型完美地拟合了训练样本(训练样本误差为零),则下面哪个说法是正确的?

A. 测试样本误差始终为零

B. 测试样本误差不可能为零

C. 以上答案都不对

答案:C

解析:根据训练样本误差为零,无法推断测试样本误差是否为零。值得一提是,如果测试样本样本很大,则很可能发生过拟合,模型不具备很好的泛化能力!

Q20. 在一个线性回归问题中,我们使用 R 平方(R-Squared)来判断拟合度。此时,如果增加一个特征,模型不变,则下面说法正确的是?

A. 如果 R-Squared 增加,则这个特征有意义

B. 如果R-Squared 减小,则这个特征没有意义

C. 仅看 R-Squared 单一变量,无法确定这个特征是否有意义。

D. 以上说法都不对

答案:C

解析:线性回归问题中,R-Squared 是用来衡量回归方程与真实样本输出之间的相似程度。其表达式如下所示:

640
640

上式中,分子部分表示真实值与预测值的平方差之和,类似于均方差 MSE;分母部分表示真实值与均值的平方差之和,类似于方差 Var。根据 R-Squared 的取值,来判断模型的好坏:如果结果是 0,说明模型拟合效果很差;如果结果是 1,说明模型无错误。一般来说,R-Squared 越大,表示模型拟合效果越好。R-Squared 反映的是大概有多准,因为,随着样本数量的增加,R-Square必然增加,无法真正定量说明准确程度,只能大概定量。

对于本题来说,单独看 R-Squared,并不能推断出增加的特征是否有意义。通常来说,增加一个特征,R-Squared 可能变大也可能保持不变,两者不一定呈正相关。

如果使用校正决定系数(Adjusted R-Square):

640
640

其中,n 是样本数量,p 是特征数量。Adjusted R-Square 抵消样本数量对 R-Square的影响,做到了真正的 0~1,越大越好。

Q21. 下列关于线性回归分析中的残差(Residuals)说法正确的是?

A. 残差均值总是为零

B. 残差均值总是小于零

C. 残差均值总是大于零

D. 以上说法都不对

答案:A

解析:线性回归分析中,目标是残差最小化。残差平方和是关于参数的函数,为了求残差极小值,令残差关于参数的偏导数为零,会得到残差和为零,即残差均值为零。

Q22. 下列关于异方差(Heteroskedasticity)说法正确的是?

A. 线性回归具有不同的误差项

B. 线性回归具有相同的误差项

C. 线性回归误差项为零

D. 以上说法都不对

答案:A

解析:异方差性是相对于同方差(Homoskedasticity)而言的。所谓同方差,是为了保证回归参数估计量具有良好的统计性质,经典线性回归模型的一个重要假定:总体回归函数中的随机误差项满足同方差性,即它们都有相同的方差。如果这一假定不满足,即:随机误差项具有不同的方差,则称线性回归模型存在异方差性。

通常来说,奇异值的出现会导致异方差性增大。

Q23. 下列哪一项能反映出 X 和 Y 之间的强相关性?

A. 相关系数为 0.9

B. 对于无效假设 β=0 的 p 值为 0.0001

C. 对于无效假设 β=0 的 t 值为 30

D. 以上说法都不对

答案:A

解析:相关系数的概念我们很熟悉,它反映了不同变量之间线性相关程度,一般用 r 表示。

640
640

其中,Cov(X,Y) 为 X 与 Y 的协方差,Var[X] 为 X 的方差,Var[Y] 为 Y 的方差。r 取值范围在 [-1,1] 之间,r 越大表示相关程度越高。A 选项中,r=0.9 表示 X 和 Y 之间有较强的相关性。

而 p 和 t 的数值大小没有统计意义,只是将其与某一个阈值进行比对,以得到二选一的结论。例如,有两个假设:

  • 无效假设(null hypothesis)H0:两参量间不存在“线性”相关。
  • 备择假设(alternative hypothesis)H1:两参量间存在“线性”相关。

如果阈值是 0.05,计算出的 p 值很小,比如为 0.001,则可以说“有非常显著的证据拒绝 H0 假设,相信 H1 假设。即两参量间存在“线性”相关。p 值只用于二值化判断,因此不能说 p=0.06 一定比 p=0.07 更好。

Q24. 下列哪些假设是我们推导线性回归参数时遵循的(多选)?

A. X 与 Y 有线性关系(多项式关系)

B. 模型误差在统计学上是独立的

C. 误差一般服从 0 均值和固定标准差的正态分布

D. X 是非随机且测量没有误差的

答案:ABCD

解析:在进行线性回归推导和分析时,我们已经默认上述四个条件是成立的。

Q25. 为了观察测试 Y 与 X 之间的线性关系,X 是连续变量,使用下列哪种图形比较适合?

A. 散点图

B. 柱形图

C. 直方图

D. 以上都不对

答案:A

解析:散点图反映了两个变量之间的相互关系,在测试 Y 与 X 之间的线性关系时,使用散点图最为直观。

Q26. 一般来说,下列哪种方法常用来预测连续独立变量?

A. 线性回归

B. 逻辑回顾

C. 线性回归和逻辑回归都行

D. 以上说法都不对

答案:A

解析:线性回归一般用于实数预测,逻辑回归一般用于分类问题。

Q27. 个人健康和年龄的相关系数是 -1.09。根据这个你可以告诉医生哪个结论?

A. 年龄是健康程度很好的预测器

B. 年龄是健康程度很糟的预测器

C. 以上说法都不对

答案:C

解析:因为相关系数的范围是 [-1,1] 之间,所以,-1.09 不可能存在。

Q28. 下列哪一种偏移,是我们在最小二乘直线拟合的情况下使用的?图中横坐标是输入 X,纵坐标是输出 Y。

640
640

A. 垂直偏移(vertical offsets)

B. 垂向偏移(perpendicular offsets)

C. 两种偏移都可以

D. 以上说法都不对

答案:A

解析:线性回归模型计算损失函数,例如均方差损失函数时,使用的都是 vertical offsets。perpendicular offsets 一般用于主成分分析(PCA)中。

Q29. 假如我们利用 Y 是 X 的 3 阶多项式产生一些数据(3 阶多项式能很好地拟合数据)。那么,下列说法正确的是(多选)?

A. 简单的线性回归容易造成高偏差(bias)、低方差(variance)

B. 简单的线性回归容易造成低偏差(bias)、高方差(variance)

C. 3 阶多项式拟合会造成低偏差(bias)、高方差(variance)

D. 3 阶多项式拟合具备低偏差(bias)、低方差(variance)

答案:AD

解析:偏差和方差是两个相对的概念,就像欠拟合和过拟合一样。如果模型过于简单,通常会造成欠拟合,伴随着高偏差、低方差;如果模型过于复杂,通常会造成过拟合,伴随着低偏差、高方差。

用一张图来形象地表示偏差与方差的关系:

640
640

图片来源:https://www.zhihu.com/question/27068705

偏差(bias)可以看成模型预测与真实样本的差距,想要得到 low bias,就得复杂化模型,但是容易造成过拟合。方差(variance)可以看成模型在测试集上的表现,想要得到 low variance,就得简化模型,但是容易造成欠拟合。实际应用中,偏差和方差是需要权衡的。若模型在训练样本和测试集上都表现的不错,偏差和方差都会比较小,这也是模型比较理想的情况。

Q30. 假如你在训练一个线性回归模型,有下面两句话:

1. 如果数据量较少,容易发生过拟合。

2. 如果假设空间较小,容易发生过拟合。

关于这两句话,下列说法正确的是?

A. 1 和 2 都错误

B. 1 正确,2 错误

C. 1 错误,2 正确

D. 1 和 2 都正确

答案:B

解析:先来看第 1 句话,如果数据量较少,容易在假设空间找到一个模型对训练样本的拟合度很好,容易造成过拟合,该模型不具备良好的泛化能力。

再来看第 2 句话,如果假设空间较小,包含的可能的模型就比较少,也就不太可能找到一个模型能够对样本拟合得很好,容易造成高偏差、低方差,即欠拟合。

Q31. 假如我们使用 Lasso 回归来拟合数据集,该数据集输入特征有 100 个(X1,X2,...,X100)。现在,我们把其中一个特征值扩大 10 倍(例如是特征 X1),然后用相同的正则化参数对 Lasso 回归进行修正。

那么,下列说法正确的是?

A. 特征 X1 很可能被排除在模型之外

B. 特征 X1 很可能还包含在模型之中

C. 无法确定特征 X1 是否被舍弃

D. 以上说法都不对

答案: B

解析:Lasso 回归类似于线性回归,只不过它在线性回归的基础上,增加了一个对所有参数的数值大小约束,如下所示:

640
640

其中,t 为正则化参数。Lasso 回归其实就是在普通线性回归的损失函数的基础上增加了个 β 的约束。那么 β 的约束为什么要使用这种形式,而不使用 β 的平方约束呢?原因就在于第一范数的约束下,一部分回归系数刚好可以被约束为 0。这样的话,就达到了特征选择的效果。如下图所示:

640
640

左边是第二范式,右边是第一范式。第一范数约束下,β 更有可能被约束成 0。这点非常类似于 L1 和 L2 正则化的区别,有兴趣的请看我之前一篇文章:机器学习中 L1 和 L2 正则化的直观解释

因此,Lasso 回归适用于样本数量较少,特征维度较大的情形,便于从较多特征中进行特征选择。例如 DNA 数据,特征维度很大,我们只希望通过 Lasso 回归找出与某些疾病有关的 DNA 片段。

本题中,将特征 X1 数值扩大 10 倍,他对应的回归系数将相应会减小,但不为 0,以此来保证仍然满足 β 的正则化约束。

Q32. 关于特征选择,下列对 Ridge 回归和 Lasso 回归说法正确的是?

A. Ridge 回归适用于特征选择

B. Lasso 回归适用于特征选择

C. 两个都适用于特征选择

D. 以上说法都不对

答案:B

解析:上一题我们已经介绍过,Lasso 回归会让一部分回归系数刚好可以被约束为 0,起到特征选择的效果。

Ridge 回归又称岭回归,它是普通线性回归加上 L2 正则项,用来防止训练过程中出现的过拟合。L2 正则化效果类似上一题左图,限定区域是圆,这样,得到的回归系数为 0 的概率很小,很大概率是非零的。因此,比较来说,Lasso 回归更容易得到稀疏的回归系数,有利于舍弃冗余或无用特征,适用于特征选择。

Q33. 如果在线性回归模型中增加一个特征变量,下列可能发生的是(多选)?

A. R-squared 增大,Adjust R-squared 增大

B. R-squared 增大,Adjust R-squared 减小

C. R-squared 减小,Adjust R-squared 减小

D. R-squared 减小,Adjust R-squared 增大

答案:AB

解析:线性回归问题中,R-Squared 是用来衡量回归方程与真实样本输出之间的相似程度。其表达式如下所示:

640
640

上式中,分子部分表示真实值与预测值的平方差之和,类似于均方差 MSE;分母部分表示真实值与均值的平方差之和,类似于方差 Var。一般来说,R-Squared 越大,表示模型拟合效果越好。R-Squared 反映的是大概有多准,因为,随着样本数量的增加,R-Squared 必然增加,无法真正定量说明准确程度,只能大概定量。

单独看 R-Squared,并不能推断出增加的特征是否有意义。通常来说,增加一个特征特征,R-Squared 可能变大也可能保持不变,两者不一定呈正相关。

如果使用校正决定系数(Adjusted R-Squared):

640
640

其中,n 是样本数量,p 是特征数量。Adjusted R-Squared 抵消样本数量对 R-Squared 的影响,做到了真正的 0~1,越大越好。

增加一个特征变量,如果这个特征有意义,Adjusted R-Square 就会增大,若这个特征是冗余特征,Adjusted R-Squared 就会减小。

Q34. 下面三张图展示了对同一训练样本,使用不同的模型拟合的效果(蓝色曲线)。那么,我们可以得出哪些结论(多选)?

640
640

A. 第 1 个模型的训练误差大于第 2 个、第 3 个模型

B. 最好的模型是第 3 个,因为它的训练误差最小

C. 第 2 个模型最为“健壮”,因为它对未知样本的拟合效果最好

D. 第 3 个模型发生了过拟合

E. 所有模型的表现都一样,因为我们并没有看到测试数据

答案:ACD

解析:1、2、3 模型分别对应的多项式阶数由小到大,即模型由简单到复杂。模型越简单,容易发生欠拟合;模型越复杂,容易发生过拟合。第 1 个模型过于简单,出现欠拟合;第 3 个模型过于复杂,对训练样本拟合得很好,但在测试样本上效果会很差,即过拟合;第 2 个模型最为“健壮”,在训练样本和测试样本上拟合效果都不错!

Q35. 下列哪些指标可以用来评估线性回归模型(多选)?

A. R-Squared

B. Adjusted R-Squared

C. F Statistics

D. RMSE / MSE / MAE

答案:ABCD

解析:R-Squared 和 Adjusted R-Squared 的概念,我们在 Q3 有过介绍,它们都可以用来评估线性回归模型。F Statistics 是指在零假设成立的情况下,符合F分布的统计量,多用于计量统计学中。

RMSE 指的是均方根误差:

640
640

MSE 指的是均方误差:

640
640

MAE 指的是评价绝对误差:

640
640

以上指标都可以用来评估线性回归模型。

Q36. 线性回归中,我们可以使用正规方程(Normal Equation)来求解系数。下列关于正规方程说法正确的是?

A. 不需要选择学习因子

B. 当特征数目很多的时候,运算速度会很慢

C. 不需要迭代训练

答案:ABC

解析:求解线性回归系数,我们一般最常用的方法是梯度下降,利用迭代优化的方式。除此之外,还有一种方法是使用正规方程,原理是基于最小二乘法。下面对正规方程做简要的推导。

已知线性回归模型的损失函数 Ein 为:

640
640

对 Ein 计算导数,令 ∇Ein=0:

640
640

然后就能计算出 W:

640
640

以上就是使用正规方程求解系数 W 的过程。可以看到,正规方程求解过程不需要学习因子,也没有迭代训练过程。当特征数目很多的时候,XTX 矩阵求逆会很慢,这时梯度下降算法更好一些。

如果 XTX 矩阵不可逆,是奇异矩阵怎么办呢?其实,大部分的计算逆矩阵的软件程序,都可以处理这个问题,也会计算出一个逆矩阵。所以,一般伪逆矩阵是可解的。

Q37. 如果 Y 是 X(X1,X2,...,Xn)的线性函数:

Y = β0 + β1X1 + β2X2 + ··· + βnXn

则下列说法正确的是(多选)?

A. 如果变量 Xi 改变一个微小变量 ΔXi,其它变量不变。那么 Y 会相应改变 βiΔXi。

B. βi 是固定的,不管 Xi 如何变化

C. Xi 对 Y 的影响是相互独立的,且 X 对 Y 的总的影响为各自分量 Xi 之和

答案:ABC

解析:这题非常简单,Y 与 X(X1,X2,...,Xn)是线性关系,故能得出 ABC 结论。

Q38. 构建一个最简单的线性回归模型需要几个系数(只有一个特征)?

A. 1 个

B. 2 个

C. 3 个

D. 4 个

答案:B

解析:最简单的线性回归模型,只有一个特征,即 Y = aX + b,包含 a 和 b 两个系数。

Q39. 下面两张图展示了两个拟合回归线(A 和 B),原始数据是随机产生的。现在,我想要计算 A 和 B 各自的残差之和。注意:两种图中的坐标尺度一样。

640
640

关于 A 和 B 各自的残差之和,下列说法正确的是?

A. A 比 B 高

B. A 比 B 小

C. A 与 B 相同

D. 以上说法都不对

答案:C

解析:A 和 B 中各自的残差之和应该是相同的。线性回归模型的损失函数为:

640
640

对损失函数求导,并令 ∇J=0,即可得到 XW-Y=0,即残差之和始终为零。

Q40. 如果两个变量相关,那么它们一定是线性关系吗?

A. 是

B. 不是

答案:B

解析:相关不一定是线性关系,也有可能是非线性相关。

Q41. 两个变量相关,它们的相关系数 r 可能为 0。这句话是否正确?

A. 正确

B. 错误

答案:A

解析:一般来说,相关系数 r=0 是两变量相互独立的必要不充分条件。也就是说,如果两个变量相互独立,那么相关系数 r 一定为 0,如果相关系数 r=0,则不一定相互独立。相关系数 r=0 只能说明两个变量之间不存在线性关系,仍然可能存在非线性关系。

那么,若两个变量相关,存在非线性关系,那么它们的相关系数 r 就为 0。

Q42. 加入使用逻辑回归对样本进行分类,得到训练样本的准确率和测试样本的准确率。现在,在数据中增加一个新的特征,其它特征保持不变。然后重新训练测试。则下列说法正确的是?

A. 训练样本准确率一定会降低

B. 训练样本准确率一定增加或保持不变

C. 测试样本准确率一定会降低

D. 测试样本准确率一定增加或保持不变

答案:B

解析:在模型中增加更多特征一般会增加训练样本的准确率,减小 bias。但是测试样本准确率不一定增加,除非增加的特征是有效特征。

这题对应的知识点也包括了增加模型复杂度,虽然会减小训练样本误差,但是容易发生过拟合。

Q43. 下面这张图是一个简单的线性回归模型,图中标注了每个样本点预测值与真实值的残差。计算 SSE 为多少?

640
640

A. 3.02

B. 0.75

C. 1.01

D. 0.604

答案:A

解析:SSE 是平方误差之和(Sum of Squared Error),SSE = (-0.2)^2 + (0.4)^2 + (-0.8)^2 + (1.3)^2 + (-0.7)^2 = 3.02

Q44. 假设变量 Var1 和 Var2 是正相关的,那么下面那张图是正确的?图中,横坐标是 Var1,纵坐标是 Var2,且对 Var1 和 Var2 都做了标准化处理。

640
640

A. Plot 1

B. Plot 2

答案:B

解析:显然,Plot 2 显示出 Var2 与 Var1 是正相关的,例如 Var2 = Var1。Plot 1 显示出 Var2 与 Var1 是负相关的,例如 Var2 = -Var1。

Q45. 假设一个公司的薪资水平中位数是 35,000,排名第 25% 和 75% 的薪资分别是 21,000 和 53,000。如果某人的薪水是 1,那么它可以被看成是异常值(Outlier)吗?

答案:C解析:异常值(Outlier)指样本中的个别值,其数值明显偏离它(或他们)所属样本的其余观测值,也称异常数据,离群值。目前人们对异常值的判别与剔除主要采用物理判别法和统计判别法两种方法。

Q46. 关于“回归(Regression)”和“相关(Correlation)”,下列说法正确的是?注意:x 是自变量,y 是因变量。

A. 回归和相关在 x 和 y 之间都是互为对称的

B. 回归和相关在 x 和 y 之间都是非对称的

C. 回归在 x 和 y 之间是非对称的,相关在 x 和 y 之间是互为对称的

D. 回归在 x 和 y 之间是对称的,相关在 x 和 y 之间是非对称的

答案:C

解析:相关(Correlation)是计算两个变量的线性相关程度,是对称的。也就是说,x 与 y 的相关系数和 y 与 x 的相关系数是一样的,没有差别。

回归(Regression)一般是利用 特征 x 预测输出 y,是单向的、非对称的。

Q47. 仅仅知道变量的均值(Mean)和中值(Median),能计算的到变量的偏斜度(Skewness)吗?

A. 可以

B. 不可以

答案:B

解析:偏斜度是对统计数据分布偏斜方向及程度的度量。偏斜度是利用 3 阶矩定义的,其计算公式如下:

640
640

其中,n 是样本数量。统计数据的频数分布有的是对称的,有的是不对称的,即呈现偏态。在偏态分布中,当偏斜度为正值时,分布正偏,即众数位于算术平均数的左侧;当偏斜度为负值时,分布负偏,即众数位于算术平均数的右侧。

我们可以利用众数、中位数和算术平均数之间的关系判断分布是左偏态还是右偏态,但要度量分布偏斜的程度,就需要计算偏斜度了。

Q48. 假设有 n 组数据集,每组数据集中,x 的平均值都是 9,x 的方差都是 11,y 的平均值都是 7.50,x 与 y 的相关系数都是 0.816,拟合的线性回归方程都是 y = 3.00 + 0.500*x。那么这 n 组数据集是否一样?

640
640

A. 一样

B. 不一样

C. 无法确定

答案:C

解析:这里需要知道的是 Anscombe's quartet。1973年,统计学家F.J. Anscombe 构造出了四组奇特的数据。这四组数据中,x 值的平均数都是 9.0,y 值的平均数都是 7.5;x 值的方差都是 10.0,y值的方差都是 3.75;它们的相关度都是 0.816,线性回归线都是 y=3+0.5x。单从这些统计数字上看来,四组数据所反映出的实际情况非常相近,而事实上,这四组数据有着天壤之别,如下图所示:

640
640

相应的 Python 代码为:

import seaborn as sns

sns.set()
# Load the example dataset for Anscombe's quartet
df = sns.load_dataset("anscombe")
# Show the results of a linear regression within each dataset
sns.lmplot(x="x", y="y", col="dataset", hue="dataset", data=df,
         col_wrap=2, ci=None, palette="muted", size=4,
         scatter_kws={"s": 50, "alpha": 1})

Q49. 观察样本次数如何影响过拟合(多选)?注意:所有情况的参数都保持一致。

A. 观察次数少,容易发生过拟合

B. 观察次数少,不容易发生过拟合

C. 观察次数多,容易发生过拟合

D. 观察次数多,不容易发生过拟合

答案:AD

解析:如果样本观察次数较少,且样本数量较少,通过提高模型复杂度,例如多项式阶数,很容易对所有样本点都拟合的非常好,造成过拟合。但是,如果观察次数多,样本更具有代表性,这时候,即使模型复杂,也不容易发生过拟合,得到的模型能够较真实地反映真实的数据分布。

Q50. 假如使用一个较复杂的回归模型来拟合样本数据,使用 Ridge 回归,调试正则化参数 λ,来降低模型复杂度。若 λ 较大时,关于偏差(bias)和方差(variance),下列说法正确的是?

A. 若 λ 较大时,偏差减小,方差减小

B. 若 λ 较大时,偏差减小,方差增大

C. 若 λ 较大时,偏差增大,方差减小

D. 若 λ 较大时,偏差增大,方差增大

答案:C

解析:若 λ 较大时,意味着模型复杂度较低,这时候容易发生欠拟合,对应偏差增大,方差减小。做个简单总结:

  • λ 较小:偏差减小,方差增大,容易发生过拟合
  • λ 较大:偏差增大,方差减小,容易发生欠拟合
640
640

Q51. 假如使用一个较复杂的回归模型来拟合样本数据,使用 Ridge 回归,调试正则化参数 λ,来降低模型复杂度。若 λ 较小时,关于偏差(bias)和方差(variance),下列说法正确的是?

A. 若 λ 较小时,偏差减小,方差减小

B. 若 λ 较小时,偏差减小,方差增大

C. 若 λ 较小时,偏差增大,方差减小

D. 若 λ 较小时,偏差增大,方差增大

答案:B

解析:见 Q5。

Q52. 下列关于 Ridge 回归,说法正确的是(多选)?

A. 若 λ=0,则等价于一般的线性回归

B. 若 λ=0,则不等价于一般的线性回归

C. 若 λ=+∞,则得到的权重系数很小,接近于零

D. 若 λ=+∞,则得到的权重系数很大,接近与无穷大

答案:AC

解析:若 λ=0,即没有正则化项,等价于一般的线性回归,可以使用最小二乘法求解系数。若 λ=+∞,正则化项对权重系数的“惩罚”非常大,对应得到的权重系数很小,接近于零。

640
640

关于正则化的图形化解释,请参考我的这篇文章:

机器学习中 L1 和 L2 正则化的直观解释

Q53. 在下面给出的三个残差图中,下面哪一个代表了与其他模型相比更差的模型?

注意:

1. 所有的残差都已经标准化

2. 图中横坐标是预测值,纵坐标是残差

640
640

A. 1

B. 2

C. 3

D. 无法比较

答案:C

解析:预测值与残差之间不应该存在任何函数关系,若存在函数关系,表明模型拟合的效果并不很好。对应在图中,若横坐标是预测值,纵坐标是残差,残差应表现为与预测值无关的随机分布。但是,图 3 中残差与预测值呈二次函数关系,表明该模型并不理想。

Q54. 下列哪一种方法的系数没有封闭形式(closed-form)的解?答案:B解析:Ridge 回归是一般的线性回归再加上 L2 正则项,它具有封闭形式的解,可以基于最小二乘法求解。

640
640
640
640
640
640

Q55. 观察如下数据集:

640
640

删除 a,b,c,d 哪个点对拟合回归线的影响最大?

A. a

B. b

C. c

D. d

答案:D

解析:线性回归对数据中的离群点比较敏感。虽然 c 点也是离群点,但它接近与回归线,残差较小。因此,d 点对拟合回归线的影响最大。

Q56. 在一个简单的线性回归模型中(只有一个变量),如果将输入变量改变一个单位(增加或减少),那么输出将改变多少?

A. 一个单位

B. 不变

C. 截距

D. 回归模型的尺度因子

答案:D

解析:很简单,假设线性回归模型是:y=a+bx,若 x 改变一个单位,例如 x+1,则 y 改变 b 个单位。b 是回归模型的尺度因子。

Q57. 逻辑回归将输出概率限定在 [0,1] 之间。下列哪个函数起到这样的作用?

A. Sigmoid 函数

B. tanh 函数

C. ReLU 函数

D. Leaky ReLU 函数

答案:A

解析:Sigmoid 函数的表达式和图形如下所示:

640
640
640
640

Sigmoid 函数输出值限定在 [0,1] 之间。

tanh 函数:

640
640
640
640

ReLU 函数:

640
640
640
640

Leaky ReLU 函数:

640
640
640
640

其中,λ 为可变参数,例如 λ=0.01。

Q58. 线性回归和逻辑回归中,关于损失函数对权重系数的偏导数,下列说法正确的是?

A. 两者不一样

B. 两者一样

C. 无法确定

答案:B

解析:线性回归的损失函数为:

640
640

逻辑回归的损失函数为:

640
640

逻辑回归输出层包含了 Sigmoid 非线性函数,其损失函数对 Sigmoid 函数之前的线性输出 Z 的偏导数与线性回归的损失函数对线性输出 Z 的偏导数一样,都是:

640
640

具体推导过程比较简单,此处省略。

dZ 是一样的,反向求导过程中,对所有权重系数的偏导数表达式都是一样的。

Q59. 假设使用逻辑回归进行 n 多类别分类,使用 One-vs-rest 分类法。下列说法正确的是?

A. 对于 n 类别,需要训练 n 个模型

B. 对于 n 类别,需要训练 n-1 个模型

C. 对于 n 类别,只需要训练 1 个模型

D. 以上说法都不对

答案:A

解析:One-vs-rest 分类法中,假设有 n 个类别,那么就会建立 n 个二项分类器,每个分类器针对其中一个类别和剩余类别进行分类。进行预测时,利用这 n个二项分类器进行分类,得到数据属于当前类的概率,选择其中概率最大的一个类别作为最终的预测结果。

举个简单的例子,3 分类,类别分别是 {-1, 0, 1}。构建 3 个 二分类器:

  • -1 与 0,1
  • 0 与 -1,1
  • 1 与 -1,0

若第 1 个二分类器得到 -1 的概率是 0.7,第 2 个二分类器得到 0 的概率是 0.2,第 3 个二分类器得到 1 的 概率是 0.4,则最终预测的类别是 -1。

Q60. 下图是两个不同 β0、β1 对应的逻辑回归模型(绿色和黑色):

640
640

关于两个逻辑回归模型中的 β0、β1 值,下列说法正确的是?

注意:y= β0+β1*x, β0 是截距,β1 是权重系数。

A. 绿色模型的 β1 比黑色模型的 β1 大

B. 绿色模型的 β1 比黑色模型的 β1 小

C. 两个模型的 β1 相同

D. 以上说法都不对

答案:B

解析:逻辑回归模型最终还要经过 Sigmoid 非线性函数,Sigmoid 是增函数,其图形与上图中的黑色模型相近。黑色模型是增函数,说明其 β1>0,绿色模型是减函数,说明其 β1<0。所以,得出结论:绿色模型的 β1 比黑色模型的 β1 小。

Q61. 在 n 维空间中(n > 1),下列哪种方法最适合用来检测异常值?

A. 正态概率图

B. 箱形图

C. 马氏距离

D. 散点图