BAT机器学习面试1000题系列

上传人:m**** 文档编号:180397420 上传时间:2023-01-06 格式:DOCX 页数:50 大小:51.39KB
返回 下载 相关 举报
BAT机器学习面试1000题系列_第1页
第1页 / 共50页
BAT机器学习面试1000题系列_第2页
第2页 / 共50页
BAT机器学习面试1000题系列_第3页
第3页 / 共50页
点击查看更多>>
资源描述
BAT机器学习面试1000题系列5 LR 以及随机森林区别 随机森林等树算法都是非线性的 而LR是线性的。LR更侧重全局优化而树模型主要是部分的 优化。 6 常用的优化方法 逻辑回归本身是可以用公式求 解的 但是因为需要求逆的复杂度太高 所以才引入了梯度 下降算法。 一阶方法梯度下降、随机梯度下降、mini随 机梯度下降降法。随机梯度下降不但速度上比原始梯度下降 要快 部分最优化问题时可以一定程度上抑制部分最优解的 发生。 二阶方法 牛顿法、拟牛顿法 这里详细讲一下牛 顿法的根本原理以及牛顿法的应用方式。牛顿法其实就是通 过切线与x轴的交点不断更新切线的位置 直到到达曲线与x 轴的交点得到方程解。在实际应用中我们因为常常要求解凸 优化问题 也就是要求解函数一阶导数为 0 的位置 而牛顿法 恰好可以给这种问题提供解决方法。实际应用中牛顿法首先 选择一个点作为起始点 并进展一次二阶泰勒展开得到导数 为 0 的点进展一个更新 直到到达要求 这时牛顿法也就成了 二阶求解问题 比一阶方法更快。我们常常看到的x通常为一 个多维向量 这也就引出了 Hessian矩阵的概念 就是x的二 阶导数矩阵 。缺点 牛顿法是定长迭代 没有步长因子 所以 不能保证函数值稳定的下降 严重时甚至会失败。还有就是 牛顿法要求函数一定是二阶可导的。而且计算 Hessian 矩阵 的逆复杂度很大。 拟牛顿法 不用二阶偏导而是构造出 Hessian 矩阵的近似正定对称矩阵的方法称为拟牛顿法。拟牛 顿法的思路就是用一个十分的表达形式来模拟 Hessian 矩阵 或是他的逆使得表达式知足拟牛顿条件。主要有 DFP 法 逼 近 Hession 的逆 、BFGS 直接逼近 Hession 矩阵 、 L-BFGS 可 以减少 BFGS 所需的存储空间 。225.用贝叶斯机率讲明 Dropout 的原理。226.为什么很多做人脸的 Paper 会最后参加一个 LocalConnected Conv许韩以 FaceBook DeepFace 为例DeepFace 先进展了两次全卷积 一次池化 提取了低层 次的边缘 纹理等特征。后接了 3 个 Local-Conv 层 这里是用 Local-Conv 的原因是 人脸在不同的区域存在不同的特征 眼 睛 鼻子 嘴的分布位置相对固定 当不存在全局的部分特征 分布时 Local-Conv 更合适特征的提取。227.什么事共线性, 跟过拟合有什么关联?抽象猴共线性 多变量线性回归中 变量之间由于存在高度相 关关系而使回归估计不准确。 共线性会造成冗余 导致过 拟合。解决方法 排除变量的相关性 参加权重正那么。228.为什么网络够深(Neurons足够多)的时候 总是可以避开较差 Local Optima参见229.机器学习中的正负样本。在分类问题中 这个问题相对好理解一点 比方人脸识 别中的例子 正样本很好理解 就是人脸的图片 负样本的选 取就与问题场景相关 详细而言 假如你要进展教室中学生 的人脸识别 那么负样本就是教室的窗子、墙等等 也就是讲 不能是与你要研究的问题毫不相关的乱七八糟的场景图片 这样的负样本并没有意义。负样本可以根据背景生成 有时 候不需要寻找额外的负样本。一般 3000-10000 的正样本需要 5 000,000-100,000,000 的负样本来学习 在互金领域一般在 入模前将正负比例通过采样的方法调整到 3:1-5:1。230.机器学习中 有哪些特征选择的工程方法数据以及特征决定了机器学习的上限 而模型以及算法 只是逼近这个上限而已。1.计算每一个特征与响应变量的相关性 工程上常用的 手段有计算皮尔逊系数以及互信息系数 皮尔逊系数只能衡 量线性相关性而互信息系数可以很好地度量各种相关性 但 是计算相对复杂一些 好在很多 toolkit 里边都包含了这个工 具 如 sklearn 的 MINE 得到相关性之后就可以排序选择特征 了 2. 构建单个特征的模型 通过模型的准确性为特征排序 借此来选择特征3通过L1正那么项来选择特征L1正那么 方法具有稀疏解的特性 因此天然具备特征选择的特性 但 是要注意 L1 没有选到的特征不代表不重要 原因是两个具 有高相关性的特征可能只保存了一个 假如要确定哪个特征 重要应再通过 L2 正那么方法穿插检验* 4.训练可以对特征 打分的预选模型 RandomForest 以及 Logistic Regression 等都 能对模型的特征打分 通过打分获得相关性后再训练最终模 型 5. 通过特征组合后再来选择特征 如对用户 id 以及用户 特征最组合来获得较大的特征集再来选择特征 这种做法在 推荐系统以及广告系统中比拟常见 这也是所谓亿级甚至十 亿级特征的主要来源 原因是用户数据比拟稀疏 组合特征 可以同时兼顾全局模型以及个性化模型 这个问题有时机可 以展开讲。 6.通过深度学习来进展特征选择 目前这种手段 正在随着深度学习的流行而成为一种手段 尤其是在计算机 视觉领域 原因是深度学习具有自动学习特征的才能 这也 是深度学习又叫 unsupervised feature learning 的原因。从深 度学习模型中选择某一神经层的特征后就可以用来进展最 终目的模型的训练了。231 在一个n维的空间中 最好的检测outlier(离群点)的 方法是 CA. 作正态分布概率图 B. 作盒形图 C. 马氏间隔D. 作散点图答案 C马氏间隔 是基于卡方分布的度量多元outlier离群点的 统计方法。更多请详见 。232. 对数几率回归 logistics regression 以及一般回归分 析有什么区别 DA. 对数几率回归是设计用来预测事件可能性的 B. 对 数几率回归可以用来度量模型拟合程度 C. 对数几率回归 可以用来估计回归系数 D. 以上所有答案 D A: 对数几率回归其实是设计用来解决分类问 题的 B: 对数几率回归可以用来检验模型对数据的拟合度 C: 固然对数几率回归是用来解决分类问题的 但是模型建立 好后 就可以根据独立的特征 估计相关的回归系数。就我认 为 这只是估计回归系数 不能直接用来做回归模型。233. bootstrap数据是什么意思提示考“bootstrap以 及“boosting区别 CA.有放回地从总共M个特征中抽样m个特征B.无放 回地从总共M个特征中抽样m个特征C.有放回地从总共 N个样本中抽样n个样本 D.无放回地从总共N个样本中抽 样 n 个样本答案 C234.“过拟合只在监视学习中出现 在非监视学习中 没有过拟合 这是 BA. 对的 B. 错的 答案 B我们可以评估无监视学习方法通过无监视学习的指标 如 我们可以评估聚类模型通过调整兰德系数 adjusted rand score 。235对于k折穿插验证,以下对k的讲法正确的选项是:DA. k 越大, 不一定越好, 选择大的 k 会加大评估时间 B. 选择更大的 k, 就会有更小的 bias (因为训练集更加接近总数 据集) C. 在选择 k 时, 要最小化数据集之间的方差 D. 以 上所有答案 Dk 越大, bias 越小, 训练时间越长 . 在训练时 , 也要考虑 数据集间方差差异不大的原那么. 比方, 对于二类分类问题, 使用2-折穿插验证,假如测试集里的数据都是A类的,而训 练集中数据都是 B 类的, 显然, 测试效果会很差。236.回归模型中存在多重共线性, 你怎样解决这个问题1.去除这两个共线性变量2.我们可以先去除一个共线性变量3计算VIF(方差膨胀因子),采取相应措施4为了 防止损失信息, 我们可以使用一些正那么化方法, 比方, 岭 回归以及lasso回归.以下哪些是对的DA. 1 B. 2 C. 2 以及 3 D. 2, 3 以及 4答案: D解决多重公线性, 可以使用相关矩阵去去除相关性高于75%的变量 (有主观成分). 可以以 VIF, 假如 VIF 值 4 讲明相 关性不是很高, VIF 值 10 讲明相关性较高. 我们可以以用 岭回归以及 lasso 回归的带有惩罚正那么项的方法. 我们可 以以在一些变量上加随机噪声, 使得变量之间变得不同, 但 是这个方法要小心使用, 可能会影响预测效果。237.模型的高 bias 是什么意思, 我们怎样降低它 ? BA. 在特征空间中减少特征 B. 在特征空间中增加特征C增加数据点D. B以及C E.以上所有答案: Bbias 太高讲明模型太简单了, 数据维数不够, 无法准确 预测数据, 所以, 升维吧 !238.训练决策树模型, 属性节点的分裂, 具有最大信息 增益的图是下列图的哪一个: AA. Outlook B. Humidity C. Windy D. Temperature答案: A信息增益, 增加平均子集纯度。239.对于信息增益, 决策树分裂节点, 下面讲法正确的 选项是: C1.纯度高的节点需要更多的信息去区分 2.信息增益可 以用1 比特-熵获得 3.假如选择一个属性具有许多归类 值, 那么这个信息增益是有偏向的A. 1 B. 2 C. 2 以及 3 D. 所有以上答案: C240.假如 SVM 模型欠拟合, 以下方法哪些可以改良模 型 : AA. 增大惩罚参数 C 的值 B. 减小惩罚参数 C 的值 C. 减小核系数(gamma参数)答案 A假如 SVM 模型欠拟合, 我们可以调高参数 C 的值, 使得 模型复杂度上升。241. 下列图是同一个 SVM 模型, 但是使用了不同的径向 基核函数的 gamma 参数, 依次是 g1, g2, g3 , 下面大小比拟 正确的选项是 : CA. g1 g2 g3 B. g1 g2 g3 C. g1 g2 g3 D. g1 g2 g3 E. g1 g2 g3答案: C242. 假设我们要解决一个二类分类问题, 我们已经建立 好了模型, 输出是0或者 1, 初始时设阈值为 0.5, 超过0.5概 率估计, 就判别为 1, 否那么就判别为 0 ; 假如我们如今用另 一个大于0.5 的阈值, 那么如今关于模型讲法, 正确的选项1. 模型分类的召回率会降低或者不变 2.模型分类的召 回率会升高 3.模型分类准确率会升高或者不变 4.模型分 类准确率会降低A. 1 B. 2 C.1 以及 3 D. 2以及 4 E. 以上都不是答案: C243. 点击率问题是这样一个预测问题, 99%的人是 不会点击的, 而 1%的人是会点击进去的, 所以这是一个非常 不平衡的数据集. 假设, 如今我们已经建了一个模型来分类, 而且有了 99%的预测准确率, 我们可以下的结论是 : BA. 模型预测准确率已经很高了, 我们不需要做什么了B. 模型预测准确率不高, 我们需要做点什么改良模型 C. 无法下结论 D. 以上都不对答案: B99%的预测准确率可能讲明, 你预测的没有点进去的人 很准确 (因为有 99%的人是不会点进去的, 这很好预测)。不 能讲明你的模型对点进去的人预测准确, 所以, 对于这样的 非平衡数据集, 我们要把注意力放在小局部的数据上, 即那 些点击进去的人。244使用k 1的KNN算法,下列图二类分类问题,“以 及 “o 分别代表两个类, 那么, 用仅拿出一个测试样本的 穿插验证方法, 穿插验证的错误率是多少 : BA. 0% B. 100% C. 0% 到 100% D. 以上都不是答案: BKNN 算法就是, 在样本周围看 k 个样本, 其中大多数样 本的分类是 A 类, 我们就把这个样本分成 A 类. 显然, k 1 的 KNN 在上图不是一个好选择, 分类的错误率始终是 100%。245.我们想在大数据集上训练决策树, 为了使用较少时 间, 我们可以 : CA. 增加树的深度 B. 增加学习率 (learning rate) C. 减少树的深度 D. 减少树的数量答案: CA增加树的深度,会导致所有节点不断分裂,直到叶子 节点是纯的为止.所以,增加深度,会延长训练时间。B决 策树没有学习率参数可以调。 (不像集成学习以及其它有步长 的学习方法)D.决策树只有一棵树,不是随机森林。246.对于神经网络的讲法, 下面正确的选项是 : A 1.增 加神经网络层数, 可能会增加测试数据集的分类错误率 2. 减少神经网络层数, 总是能减小测试数据集的分类错误率 3.增加神经网络层数, 总是能减小训练数据集的分类错误率A. 1 B. 1 以及 3 C. 1 以及 2 D. 2答案: A深度神经网络的成功, 已经证明, 增加神经网络层数, 可以增加模型范化才能, 即训练数据集以及测试数据集都表 现得更好. 但更多的层数, 也不一定能保证有更好的表现。 所以,不能绝对地讲层数多的好坏, 只能选 A。247假设我们使用非线性可分的SVM目的函数作为最优化对象, 我们怎么保证模型线性可分 CA. 设 C 1 B. 设 C 0 C. 设 C 无穷大 D. 以上都不对答案: CC 无穷大保证了所有的线性不可分都是可以忍受的。248. 训练完 SVM 模型后, 不是支持向量的那些样本我们可以丢掉, 可以以继续分类: AA. 正确 B. 错误答案: A SVM 模型中, 真正影响决策边界的是支持向量249. 以下哪些算法, 可以用神经网络去构造: B 1.KNN2. 线性回归 3.对数几率回归A. 1 以及 2 B. 2 以及 3 C. 1, 2 以及 3 D. 以上都 不是答案: B 1.KNN 算法不需要训练参数, 而所有神经网络 都需要训练参数, 因此神经网络帮不上忙 2.最简单的神经 网络, 感悟器, 其实就是线性回归的训练 3.我们可以用一 层的神经网络构造对数几率回归250请选择下面可以应用隐马尔科夫(HMM)模型的选项:DA. 基因序列数据集 B. 电影阅读数据集 C. 股票市场 数据集 D. 所有以上答案: D 只要是以及时间序列问题有关的 , 都可以试 试 HMM。251.我们建立一个5000个特征, 100万数据的机器学习 模型. 我们怎么有效地应对这样的大数据训练 : FA. 我们随机抽取一些样本, 在这些少量样本之上训练B. 我们可以试用在线机器学习算法 C. 我们应用 PCA 算法降维, 减少特征数 D. B 以及 C E. A 以及 B F. 以上所 有答案: F252.我们想要减少数据集中的特征数, 即降维. 选择以 下合适的方案 : D 1.使用前向特征选择方法 2.使用后向 特征排除方法 3.我们先把所有特征都使用, 去训练一个模 型, 得到测试集上的表现. 然后我们去掉一个特征, 再去训 练, 用穿插验证看看测试集上的表现. 假如表现比原来还要 好, 我们可以去除这个特征 4.查看相关性表, 去除相关性 最高的一些特征A. 1 以及 2 B. 2, 3以及 4 C. 1, 2以及4 D. All答案: D 1.前向特征选择方法以及后向特征排除方法是 我们特征选择的常用方法 2.假如前向特征选择方法以及后 向特征排除方法在大数据上不适用, 可以用这里第三种方法3. 用相关性的度量去删除多余特征, 也是一个好方法所以 D 是正确的。253.对于随机森林以及 GradientBoosting Trees, 下面讲 法正确的选项是: A 1.在随机森林的单个树中, 树以及树之 间是有依赖的, 而 GradientBoosting Trees 中的单个树之间是 没有依赖的 2.这两个模型都使用随机特征子集, 来生成许 多单个的树 3.我们可以并行地生成 GradientBoosting Trees 单个树, 因为它们之间是没有依赖的, GradientBoosting Trees 训练模型的表现总是比随机森林好A. 2 B. 1 and 2 C. 1, 3 and 4 D. 2 and 4答案: A 1.随机森林是基于 bagging 的, 而 Gradient Boosting trees 是基于 boosting 的, 所有讲反了,在随机森林的 单个树中, 树以及树之间是没有依赖的, 而 GradientBoosting Trees 中的单个树之间是有依赖关系。 2.这两个模型都使用 随机特征子集, 来生成许多单个的树。所以A是正确的。254对于PCA(主成分分析)转化过的特征,朴素贝叶斯 的不依赖假设总是成立, 因为所有主要成分是正交的, 这个讲法是 : BA. 正确的 B. 错误的答案: B 这个讲法是错误的。首先 “不依赖以及“不相 关是两回事 其次, 转化过的特征, 可以能是相关的。255.对于 PCA 讲法正确的选项是 : A 1.我们必须在使 用 PCA 前标准化数据 2. 我们应该选择使得模型有最大 varianee的主成分3.我们应该选择使得模型有最小varianee 的主成分 4.我们可以使用 PCA 在低维度上做数据可视化A. 1, 2 and 4 B. 2 and 4 C. 3 and 4 D. 1 and 3 E. 1, 3 and 4答案: A 1 PCA 对数据尺度很敏感, 打个比方, 假如单 位是从km变为cm,这样的数据尺度对PCA最后的结果可能 很有影响(从不怎么重要的成分变为很重要的成分) 2 我们 总是应该选择使得模型有最大 varianee 的主成分 3 有时在 低维度上左图是需要PCA的降维帮助的256.对于下列图, 最好的主成分选择是多少 ? BA. 7 B. 30 C. 35 D. 不确定答案: B 主成分选择使 variance 越大越好 在这个前提 下 主成分越少越好。257.数据科学家可能会同时使用多个算法 模型 进展预 测 并且最后把这些算法的结果集成起来进展最后的预测 集成学习 以下对集成学习讲法正确的选项是 : BA. 单个模型之间有高相关性 B. 单个模型之间有低相 关性 C. 在集成学习中使用“平均权重而不是“投票会 比拟好 D. 单个模型都是用的一个算法答案: B258.在有监视学习中 我们怎样使用聚类方法 B 1.我 们可以先创立聚类类别 然后在每个类别上用监视学习分别 进展学习2我们可以使用聚类“类别id作为一个新的特 征项 然后再用监视学习分别进展学习3.在进展监视学习之前 我们不能新建聚类类别4.我们不可以使用聚类“类别id作为一个新的特征项 然后再用监视学习分别进展学习A. 2 以及 4 B. 1 以及 2 C. 3 以及 4 D. 1 以及 3答案: B 我们可以为每个聚类构建不同的模型 进步预 测准确率“类别id作为一个特征项去训练 可以有效地总 结了数据特征。所以B是正确的。259. 以下讲法正确的选项是 : C 1.一个机器学习模型 假如有较高准确率 总是讲明这个分类器是好的 2.假如增 加模型复杂度 那么模型的测试错误率总是会降低 3.假如 增加模型复杂度 那么模型的训练错误率总是会降低 4.我 们不可以使用聚类“类别id作为一个新的特征项 然后再用 监视学习分别进展学习A. 1 B. 2 C. 3 D. 1 and 3答案: C 考的是过拟合以及欠拟合的问题。260. 对应 GradientBoosting tree 算法 以下讲法正确的选 项是 : C 1.当增加最小样本分裂个数 我们可以抵抗过拟合2. 当增加最小样本分裂个数 会导致过拟合 3.当我们减少训练单个学习器的样本个数 我们可以降低 variance 4.当我 们减少训练单个学习器的样本个数 我们可以降低 biasA. 2 以及 4 B. 2 以及 3 C. 1 以及 3 D. 1 以及 4答案: C 最小样本分裂个数是用来控制“过拟合参数。 太高的值会导致“欠拟合 这个参数应该用穿插验证来调节 第二点是靠 bias 以及 variance 概念的。261.以下哪个图是 KNN 算法的训练边界 ? BA) B B) A C) D D) C E) 都不是答案 B KNN 算法肯定不是线性的边界 所以直的边界 就不用考虑了。另外这个算法是看周围最近的k个样本的分 类用以确定分类 所以边界一定是坑坑洼洼的。262.假如一个训练好的模型在测试集上有 100%的准确 率 这是不是意味着在一个新的数据集上 也会有同样好的表现 BA. 是的 这讲明这个模型的范化才能已经足以支持新的 数据集合了 B. 不对 仍然后其他因素模型没有考虑到 比 方噪音数据答案 B 没有一个模型是可以总是适应新的数据的。我 们不可能到达 100%的准确率。263.下面的穿插验证方法 : B i. 有放回的 Bootstrap 方 法 ii. 留一个测试样本的穿插验证 iii. 5 折穿插验证 iv. 重复两次的 5折穿插验证 当样本是 1000 时 下面执行时间 的顺序 正确的选项是A. i ii iii iv B. ii iv iii i C. iv i ii iii D. ii iii iv i答案 BBootstrap 方法是传统的随机抽样 验证一次的验证方 法 只需要训练 1 个模型 所以时间最少。留一个测试样本的 穿插验证 需要n次训练经过n是样本个数这里 需要训练 1000个模型。5折穿插验证需要训练5个模型。重复两次的 5折穿插验证 需要训练10个模型。264. 变量选择是用来选择最好的判别器子集 假如要考 虑模型效率 我们应该做哪些变量选择的考虑 : C 1.多个变 量其实有一样的用途 2.变量对于模型的解释有多大作用3. 特征携带的信息 4.穿插验证A. 1 以及 4 B. 1, 2 以及 3 C. 1,3 以及 4 D. 以上 所有答案 C 注意 这题的题眼是考虑模型效率 所以不要 考虑选项 B265. 对于线性回归模型 包括附加变量在内 以下的可能 正确的选项是 : D 1.R-Squared 以及 Adjusted R-squared 都 是递增的 2.R-Squared 是常量的 Adjusted R-squared 是递 增的 3.R-Squared 是递减的 Adjusted R-squared 也是递减 的 4.R-Squared 是递减的 Adjusted R-squared 是递增的A. 1 以及 2 B. 1 以及 3 C. 2 以及 4 D. 以上都不 是答案 D R-Squared 不能决定系数估计以及预测偏向 这 就是为什么我们要估计残差图。但是 R-Squared 有 R-Squared 以及 predicted R-Squared 所没有的问题。每次为模型参加预 测器 R-Squared 递增或不变。266. 对于下面三个模型的训练情况 下面讲法正确的选 项是 : C1.第一张图的训练错误与其余两张图相比 是最大的 2. 最后一张图的训练效果最好 因为训练错误最小 3.第二张 图比第一以及第三张图鲁棒性更强 是三个里面表现最好的 模型 4.第三张图相对前两张图过拟合了 5.三个图表现一 样 因为我们还没有测试数据集A. 1 以及 3 B. 1 以及 3 C. 1, 3 以及 4 D. 5267. 对于线性回归 我们应该有以下哪些假设 D 1.找 到利群点很重要, 因为线性回归对利群点很敏感 2.线性回 归要求所有变量必须符合正态分布 3.线性回归假设数据没 有多重线性相关性A. 1 以及 2 B. 2 以及 3 C. 1,2 以及 3 D. 以上都 不是答案 D利群点要着重考虑 第一点是对的。不是必须的 当然 假如是正态分布 训练效果会更好。有少量的多重线性相关 性是可以的 但是我们要尽量防止。268. 我们注意变量间的相关性。在相关矩阵中搜索相关 系数时,假如我们发现3对变量的相关系数是(Vari以及 Var2, Var2 以及 Var3, Var3 以及 Vari)是-0.98, 0.45, 1.23 .我们 可以得出什么结论C i.Vari以及Var2是非常相关的2因 为Var以及Var2是非常相关的,我们可以去除其中一个 3.Var3以及Vari的1.23相关系数是不可能的A. i and 3 B. i and 2 C. i,2 and 3 D. i答案 CVari 以及 Var2 的相关系数是负的 所以这是多重线性 相关 我们可以考虑去除其中一个。一 般的 假如相关系数 大于 0.7 或小于-0.7 是高相关的。相关系数的范围应该是 -i,i。269. 假如在一个高度非线性并且复杂的一些变量中“一个树模型可比一般的回归模型效果更好是 AA. 对的 B. 错的答案 A270. 对于维度极低的特征 选择线性还是非线性分类器答案 非线性分类器 低维空间可能很多特征都跑到一 起了 导致线性不可分。 1.假如特征的数量很大 跟样本数 量差不多 这时候选用 LR 或是 Linear Kernel 的 SVM。 2.假 如特征的数量比拟小 样本数量一般 不算大也不算小 选用 SVM Gaussian Kernel。 3.假如特征的数量比拟小 而样本数 量很多 需要手工添加一些特征变成第一种情况。271.SVM、LR、决策树的比照。模型复杂度 SVM 支持核函数 可处理线性非线性问题;LR模型简单训练速度快合适处理线性问题;决策树容易 过拟合 需要进展剪枝。 损失函数 SVM hinge loss; LR L2 正 那么化; Adaboost 指数损失。 数据敏感度 SVM 添加容忍 度对outlier不敏感 只关心支持向量 且需要先做归一化;LR 对远点敏感。 数据量 数据量大就用 LR 数据量小且特征少 就用SVM非线性核。272.什么是 ill-condition 病态问题训练完的模型 测试样本稍作修改就会得到差异很大的 结果 就是病态问题 模型对未知数据的预测才能很差 即泛 化误差大。273.简述 KNN 最近邻分类算法的经过1.计算训练样本以及测试样本中每个样本点的间隔 常 见的间隔 度量有欧式间隔 马氏间隔 等 2.对上面所有的 间隔值进展排序3选前k个最小间隔的样本4根据这k 个样本的标签进展投票 得到最后的分类类别274. 常用的聚类划分方式有哪些 列举代表算法。1.基于划分的聚类:K-mea ns k-medoids CLARANS。 2.基 于层次的聚类 AGNES 自底向上 DIANA 自上向下 。 3.基 于密度的聚类 DBSACN OPTICS BIRCH(CF-Tree) CURE。 4.基 于网格的方法 STING WaveCluster。 5.基于模型的聚类EM,SOM COBWEB。275. 下面对集成学习模型中的弱学习者描绘错误的选项 是CA. 他们经常不会过拟合 B. 他们通常带有高偏向 所 以其并不能解决复杂学习问题 C. 他们通常会过拟合答案 C 弱学习者是问题的特定局部。所以他们通常不 会过拟合 这也就意味着弱学习者通常拥有低方差以及高偏 向。276. 下面哪个/些选项对 K 折穿插验证的描绘是正确的 D 1.增大 K 将导致穿插验证结果时需要更多的时间 2. 更 大的 K 值相比于小 K 值将对穿插验证构造有更高的信心 3.假如 K N 那么其称为留一穿插验证 其中 N 为验证集中 的样本数量A. 1 以及 2 B. 2 以及 3 C. 1 以及 3 D. 1、2 以及 3答案 D) 大 K 值意味着对过高估计真实预期误差 训 练的折数将更接近于整个验证集样本数 拥有更小的偏向以 及更多的运行时间 并随着越来越接近极限情况 留一穿插 验证 。我们同样在选择 K 值时需要考虑 K 折准确度以及 方差间的平衡。277最知名的降维算法是PAC以及t-SNE。将这两个算 法分别应用到数据X上 并得到数据集X_projected_PCAX_projected_tSNE。下面哪一项对X_projected_PCA以 及X_projected_tSNE的描绘是正确的BA. X_projected_PCA 在最近邻空间能得到解释 B.X_projected_tSNE 在最近邻空间能得到解释 C. 两个都在 最近邻空间能得到解释 D. 两个都不能在最近邻空间得到 解释答案 B t-SNE 算法考虑最近邻点而减少数据维度。所 以在使用 t-SNE 之后 所降的维可以在最近邻空间得到解释 但 PCA 不能。278.给定三个变量 X Y Z。 (X, Y)、(Y, Z) 以及 (X, Z) 的Pears on相关性系数分别为C1、C2以及C3。如今X的所 有值加 2 即 X 2 Y 的全部值减 2 即 Y-2 Z 保持不变。那么 运算之后的 (X, Y)、(Y, Z) 以及 (X, Z) 相关性系数分别为 D1、D2以及D3。如今试问D1、D2、D3以及C1、C2、C3之 间的关系是什么 EA. D1 C1, D2 C2, D3 C3 B. D1 C1, D2 C2, D3 C3 C. D1 C1,D2 C2, D3 C3 D. D1 C1, D2 C2, D3 C3 E. D1 C1, D2 C2, D3 C3答案 E 特征之间的相关性系数不会因为特征加或者 减去一个数而改变。279. 为了得到以及 SVD 一样的投射 projection 你需要在 PCA 中如何做 (A)A. 将数据转换成零均值 B. 将数据转换成零中位数C. 无法做到答案: A 当数据有一个 0 均值向量时 PCA 有与 SVD 一样的投射 否那么在使用 SVD 之前 你必须将数据均值归 0。280. 假设我们有一个数据集 在一个深度为 6 的决策树 的帮助下 它可以使用 100% 的准确度被训练。如今考虑一下两点 并基于这两点选择正确的选项。(A)注意 所有其他 超参数是一样的 所有其他因子不受影响。 1.深度为 4 时 将有高偏向以及低方差 2.深度为 4 时将有低偏向以及低 方差A. 只有 1 B. 只有 2 C. 1 以及 2 D. 没有一个答案: A) 假如在这样的数据中你拟合深度为 4 的决策 树 这意味着其更有可能与数据欠拟合。因此 在欠拟合的情 况下 你将获得高偏向以及低方差。281 在k-均值算法中以下哪个选项可用于获得全局最 小 (D)A. 尝试为不同的质心 centroid 初始化运行算法 B. 调整迭代的次数 C. 找到集群的最正确数量 D. 以上所有答案: D 所有都可以用来调试以找到全局最小。282.你正在使用带有 L1 正那么化的 logistic 回归做二 分类 其中 C 是正那么化参数 w1 以及 w2 是 x1 以及 x2 的系数。当你把 C 值从 0 增加至非常大的值时 下面哪个选项是正确的 (B)A. 第一个 w2 成了 0 接着 w1 也成了 0 B. 第一个 w1 成了 0 接着 w2 也成了 0 C. w1 以及 w2 同时成了 0 D. 即使在 C 成为大值之后 w1 以及 w2 都不能成 0答案: B 通过观察图像我们发现 即使只使用 x2 我们 也能高效执行分类。因此一开场 w1 将成 0 当正那么化参 数不断增加时 w2 也会越来越接近 0。283.假设你使用 log-loss 函数作为评估标准。下面这些 选项哪些是对作为评估标准的log-loss的正确解释。(D)A假如一个分类器对不正确的分类很自信log-loss会严 重的批评它。B对一个十分的观察而言分类器为正确的类 别分配非常小的概率 然后对 log-loss 的相应分布会非常大 C.log-loss越低模型越好D.以上都是答案为: D284.下面哪个选项中哪一项属于确定性算法 (AA.PCA B.K-Means C. 以上都不是答案 A 确定性算法说明在不同运行中 算法输出并不 会改变。假如我们再一次运行算法 PCA 会得出一样的结果 而 K-Means 不会。285.特征向量的归一化方法有哪些 线性函数转换 表达式如下 y x-MinValueMaxValue-MinValue 对数函数转换 表达式如下 y Iog10(x)反余切函数转换表达式如下 y arctan(x) 2n减 去均值除以方差y x-meansvariance286优化算法及其优缺点温馨提示 在答复面试官的问题的时候 往往将问题往 大的方面去答复 这样不会陷于小的技术上死磕 最后很容 易把自己嗑死了。 1 随机梯度下降 优点 可以一定程度 上解决部分最优解的问题 缺点 收敛速度较慢 2 批量梯 度下降 优点 容易陷入部分最优解 缺点 收敛速度较快 3 mini_batch 梯度下降 综合随机梯度下降以及批量梯度下 降的优缺点 提取的一个中以及的方法。 4 牛顿法 牛顿 法在迭代的时候 需要计算 Hessian 矩阵 当维度较高的时候 计算 Hessian 矩阵比拟困难。 5 拟牛顿法 拟牛顿法是为 了改良牛顿法在迭代经过中 计算Hessian矩阵而提取的算法 它采用的方式是通过逼近Hessian的方式来进展求解。287. RF 与 GBDT 之间的区别与联络1 一样点 都是由多棵树组成 最终的结果都是由多棵 树一起决定。 2 不同点组成随机森林的树可以分类树可以以是回归树 而 GBDT 只由回归树组成组成随机森林的树可以并行生成 而 GBDT 是串行生成随机森林的结果是多数表决表决的 而 GBDT 那么是多棵树累加之以及随机森林对异常值不敏感 而 GBDT 对异常值比拟敏感随机森林是减少模型的方差 而 GBDT是减少模型的偏向随机森林不需要进展特征归一化 而 GBDT那么需要进展特征归一化288. 两个变量的 Pearson 相关性系数为零 但这两个变 量的值同样可以相关。 (A)A. 正确 B. 错误答案:A Pearson相关系数只能衡量线性相关性 但无法 衡量非线性关系。如y xA2 x以及y有很强的非线性关系。289.下面哪个/些超参数的增加可能会造成随机森林数 据过拟合 BA. 树的数量 B. 树的深度 C. 学习速率答案 B 通常情况下 我们增加树的深度有可能会造成 模型过拟合。学习速率并不是随机森林的超参数。增加树的 数量可能会造成欠拟合。290.目的变量在训练集上的 8 个实际值 0,0,0,1,1,1,1,1 目的变量的熵是多少 AA. -(58log(58) 38log(38) B. (58log(58) 38log(38) C. (38log(58) 58log(38) D. (58log(38)-38log(58)答案 A291. 下面有关序列形式挖掘算法的描绘 错误的选项是CA. AprioriAll 算法以及 GSP 算法都属于 Apriori 类算法 都 要产生大量的候选序列 B. FreeSpan 算法以及 PrefixSpan 算 法不生成大量的候选序列和不需要反复扫描原数据库 C. 在时空的执行效率上 FreeSpan 比 PrefixSpan 更优 D. 以及 AprioriAll 相比 GSP 的执行效率比拟高CS 青雀 此题解析来源292. 以下哪个不属于常用的文本分类的特征选择算法 DA. 卡方检验值 B. 互信息 C. 信息增益 D. 主成分分析答案 D CS 青雀 此题解析来源 常采用特征选择方法 常见的六种特征选择方法 1 DF(Document Frequency) 文档 频率DF:统计特征词出现的文档数量 用来衡量某个特征词 的重要性 2 MI(Mutual Information) 互信息法 互信息法用 于衡量特征词与文档类别直接的信息量。 假如某个特征词 的频率很低 那么互信息得分就会很大 因此互信息法倾向 低频的特征词。 相对的词频很高的词 得分就会变低 假 如这词携带了很高的信息量 互信息法就会变得低效。 3 (Information Gain) 信息增益法 通过某个特征词的缺失与 存在的两种情况下 语料中前后信息的增加 衡量某个特征 词的重要性。 4 CHI(Chi-square) 卡方检验法 利用了统计 学中的假设检验的根本思想 首先假设特征词与类别直 接是不相关的 假如利用 CHI 分布计算出的检验值偏离阈值 越大 那么更有信心否认原假设 承受原假设的备那么假设 特征词与类别有着很高的关联度。 5 WLLR(Weighted Log Likelihood Ratio n)加权对数似然 6 WFO Weighted Freque ncy and Odds 加权频率以及可能性293. 类域界面方程法中 不能求线性不可分情况下分类 问题近似或者准确解的方法是 (D)A. 伪逆法-径向基 RBF 神经网络的训练算法 就是解决 线性不可分的情况 B. 基于二次准那么的 H-K 算法 最小均 方差准那么下求得权矢量 二次准那么解决非线性问题 C. 势函数法 非线性 D. 感悟器算法 线性分类算法答案 D294. 机器学习中做特征选择时 可能用到的方法有 EA卡方B信息增益C.平均互信息D.期望穿插熵 E. 以上都有答案 E295. 以下方法中 不可以用于特征降维的方法包括 EA.主成分分析PCA B.线性判别分析LDA C.深度学 习 SparseAutoEncoder D. 矩阵奇异值分解 SVD E. 最小二 乘法 LeastSquares答案 E 特征降维方法主要有 PCA LLE Isomap SVD 以 及PCA类似 可以以看成一种降维方法。LDA:线性判别分 析 可用于降维。 AutoEncoder AutoEncoder 的构造与神经 网络的隐含层一样由输入L1,输出L2组成中间那么是权重 连接。Autoencoder通过L2得到输入的重构L3最小化L3与 L1 的差异 进展训练得到权重。在这样的权重参数下 得到的 L2 可以尽可能的保存 L1 的信息。 Autoencoder 的输出 L2 的维度由输出的神经元个数决定。当输出维度大于 L1 时 那 么需要在训练目的函数中参加sparse惩罚项 防止L2直接复 制 L1 权重全为 1 。所以称为 sparseAutoencoder( Andrew Ng 提出的)。结论 SparseAutoencoder 大多数情况下都是升维的 所以称之为特征降维的方法不准确。296.一般 K-NN 最近邻方法在 A 的情况下效果较好。A 样本较多但典型性不好 B 样本呈团状分布 C 样 本较少但典型性好 D 样本呈链状分布297.以下哪些方法可以用来对高维数据进展降维 A B CD E FA. LASSO B. 主成分分析法 C. 聚类分析 D. 小波分 析法 E. 线性判别法 F. 拉普拉斯特征映射解析 LASSO 通过参数缩减到达降维的目的 PCA 就不 用讲了 线性鉴别法即LDA通过找到一个空间使得类内间隔 最小类间间隔 最大所以可以看做是降维 小波分析有一些 变换的操作降低其他干扰可以看做是降维 拉普拉斯请看。298.以下描绘错误的选项是 CA. SVM 是这样一个分类器 它寻找具有最小边缘的超平 面 因此它也经常被称为最小边缘分类器 B. 在聚类分析当 中 簇内的相似性越大 簇间的差异越大 聚类的效果就越差C. 在决策树中 随着树中结点输变得太大 即使模型的训练误差还在继续降低 但是检验误差开场增大 这是出现了模 型拟合缺乏的原因 D. 聚类分析可以看作是一种非监视的 分类299.以下讲法中正确的选项是 CA. SVM 对噪声 如来自其他分部的噪声样本 具备鲁棒 性 B. 在 adaboost 算法中 所有被分错样本的权重更新比例 一样 C. boosting 以及 bagging 都是组合多个分类器投票的 方法 二者都是根据单个分类器的正确率确定其权重 D. 给 定 n 个数据点 假如其中一半用于训练 一半用户测试 那么 训练误差以及测试误差之间的差异会随着n的增加而减少300.关于正态分布,以下讲法错误的选项是 CA. 正态分布具有集中性以及对称性 B. 正态分布的均 值以及方差可以决定正态分布的位置以及形态 C. 正态分 布的偏度为 0 峰度为1 D. 标准正态分布的均值为 0 方差 为1301.在以下不同的场景中,使用的分析方法不正确的有A. 根据商家最近一年度的经营及效劳数据,用聚类算法 判断出天猫商家在各自主营类目下所属的商家层级 B. 根 据商家近几年度的成交数据,用聚类算法拟合出用户将来一 个月可能的消费金额公式 C. 用关联规那么算法分析出购 置了汽车坐垫的买家,是否合适推荐汽车脚垫 D. 根据用户 最近购置的商品信息,用决策树算法识别出淘宝买家可能是 男还是女302.什么是梯度爆炸答案 误差梯度是神经网络训练经过中计算的方向以及 数量 用于以正确的方向以及适宜的量更新网络权重。 在 深层网络或者循环神经网络中 误差梯度可在更新中累积 变成非常大的梯度 然后导致网络权重的大幅更新 并因此 使网络变得不稳定。在极端情况下 权重的值变得非常大 以 致于溢出 导致 NaN 值。 网络层之间的梯度 值大于 1.0 重复相乘导致的指数级增长会产生梯度爆炸。303.梯度爆炸会引发什么问题答案 在深度多层感悟机网络中 梯度爆炸会引起网络 不稳定 最好的结果是无法从训练数据中学习 而最坏的结 果是出现无法再更新的 NaN 权重值。梯度爆炸导致学习模型无法从训练数据中获得更新 如低损失 。模型不稳定 导致更新经过中的损失出现显著变 化。训练经过中 模型损失变成 NaN。假如你发现这些问题 那么你需要仔细查看是否出现梯 度爆炸问题。 以下是一些略微明显一点的信号 有助于确 认是否出现梯度爆炸问题。训练经过中模型梯度快速变大。训练经过中模型权重 变成 NaN 值。训练经过中 每个节点以及层的误差梯度值持 续超过 1.0。305.怎样修复梯度爆炸问题 重新设计网络模型 在深度神经网络中 梯度爆炸可 以通过重新设计层数更少的网络来解决。 使用更小的批尺 寸对网络训练也有好处。 在循环神经网络中 训练经过中 在更少的先前时间步上进展更新 沿时间的截断反向传播 truncated Backpropagation through time 可以缓解梯度爆炸 问题。使用 ReLU 激活函数 在深度多层感悟机神经网络中 梯度爆炸的发生可能是因为激活函数 如之前很流行的 Sigmoid 以及 Tanh 函数。 使用 ReLU 激活函数可以减少 梯度爆炸。采用 ReLU 激活函数是最合适隐藏层的新理论。 使用长短期记忆网络 在循环神经网络中 梯度爆炸的发生 可能是因为某种网络的训练本身就存在不稳定性 如随时间 的反向传播本质上将循环网络转换成深度多层感悟机神经 网络。 使用长短期记忆 LSTM 单元以及相关的门类型神经 元构造可以减少梯度爆炸问题。 采用 LSTM 单元是合适循 环神经网络的序列预测的最新最好理论。使用梯度截断 Gradient Clipping 在非常深且批尺寸较大的多层感悟机网 络以及输入序列较长的 LSTM 中 仍然有可能出现梯度爆炸 假如梯度爆炸仍然出现 你可以在训练经过中检查以及限制 梯度的大小。这就是梯度截断。 处理梯度爆炸有一个简单 有效的解决方案 假如梯度超过阈值 就截断它们。?Neural Network Methods in Natural Language Processing? 2017. 详细来讲 检查误差梯度的值是否超过阈值 假如超 过 那么截断梯度 将梯度设置为阈值。 梯度截断可以一定 程度上缓解梯度爆炸问题 梯度截断 即在执行梯度下降步 骤之前将梯度设置为阈值 。 ?深度学习? 2016. 在 Keras 深度学习库中 你可以在训练之前设置优化器上的 clipnorm 或者 clipvalue 参数 来使用梯度截断。 默认值为 clipnorm 1.0 、clipvalue 0.5。使用权重正那么化 Weight Regularization 假如梯度爆炸仍然存在 可以尝试另一种方 法 即检查网络权重的大小 并惩罚产生较大权重值的损失 函数。该经过被称为权重正那么化 通常使用的是 L1 惩罚项 权重绝对值 或者 L2 惩罚项 权重平方 。 对循环权重使用 L1 或者 L2 惩罚项有助于缓解梯度爆炸。 On the difficulty of training recurrent neural networks 2021. 在 Keras 深度学习库中 你可以通过在层上设置 kernel_regularizer 参数以及使用 L1 或者 L2 正那么化项进 展权重正那么化。306. LSTM 神经网络输入输出终究是如何的答案 YJango 此题解析来源307.以下关于PMF(概率质量函数),PDF(概率密度函数),CDF(累积分布函数)描绘错误的选项是AA. PDF 描绘的是连续型随机变量在特定取值区间的概率B. CDF是PDF在特定区间上的积分C. PMF描绘的是离散型 随机变量在特定取值点的概率 D. 有一个分布的 CDF 函数 H(x),那么 H(a)等于 P(X a)答案 A 概率质量函数 (probability mass function PMF) 是离散随机变量在各特定取值上的概率。 概率密度函数 p robability density function PDF 是对 连续随机变量 定义的 本身不是概率 只有对连续随机变量的取值进展积分后才是 概率。 累积分布函数 cumulative distribution function CDF 能完好描绘一个实数随机变量 X 的概率分布 是概率密度函 数的积分。对于所有实数 x 与 pdf 相对。308.线性回归的根本假设有哪些 (ABDE)A. 随机误差项是一个期望值为 0的随机变量 B. 对于 解释变量的所有观测值 随机误差项有一样的方差 C. 随机 误差项彼此相关 D. 解释变量是确定性变量不是随机变量 与随机误差项之间互相独立 E. 随机误差项服从正态分布309.处理类别型特征时 事先不知道分类变量在测试集 中的分布。要将 one-hot encoding 独热码 应用到类别型特 征中。那么在训练集中将独热码应用到分类变量可能要面临 的困难是什么 A、BA. 分类变量所有的类别没有全部出如今测试集中 B. 类别的频率分布在训练集以及测试集是不同的 C. 训练集 以及测试集通常会有一样的分布答案 A、B 假如类别在测试集中出现 但没有在训练集 中出现 独热码将不能进展类别编码 这是主要困难。假如训 练集以及测试集的频率分布不一样 我们需要多加小心。310.假定你在神经网络中的隐藏层中使用激活函数 X。 在特定神经元给
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑环境 > 建筑资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!