中国科学院大学2012年《机器学习》试卷及其答案

上传人:小** 文档编号:49533035 上传时间:2022-01-18 格式:DOC 页数:5 大小:126.50KB
返回 下载 相关 举报
中国科学院大学2012年《机器学习》试卷及其答案_第1页
第1页 / 共5页
中国科学院大学2012年《机器学习》试卷及其答案_第2页
第2页 / 共5页
中国科学院大学2012年《机器学习》试卷及其答案_第3页
第3页 / 共5页
点击查看更多>>
资源描述
中国科学院大学 20139310班中国科学院大学2012年机器学习试卷及其答案任课教师:卿来云一、基础题(共36分)1、请描述极大似然估计 MLE和最大后验估计 MAP之间的区别。请解释为什么 MLE比MAP 更容易过拟合。(10分)MLE :取似然函数最大时的参数值为该参数的估计值,ymie=argmaxp(x|y) ; MAP :取后验函数(似然与先验之积)最大时的参数值为该参数的估计值,ymap=argmaxp(x|y)p(y)。因为MLE只考虑训练数据拟合程度没有考虑先验知识,把错误点也加入模型中,导致过拟合。2、 在年度百花奖评奖揭晓之前,一位教授问80个电影系的学生,谁将分别获得8个奖项(如 最佳导演、最佳男女主角等)。评奖结果揭晓后,该教授计算每个学生的猜中率,同时也计算了所有80个学生投票的结果。他发现所有人投票结果几乎比任何一个学生的结果正确率 都高。这种提高是偶然的吗?请解释原因。(10分)设x为第i个学生的猜中率(要么 0要么1) xBer( 0 ),E(x)= 0 ,V(x)= 0 (1- 0 )mean(x)N( 0 , 0 (1- 0 )/N),E(mean(x)=0 ,V(mean(x)=0 (1- 0 )/N-(N/2)*log(22)-冕(yi-Jxi)2/2 % 其损失为残差平方和,放大了误差,对离群点敏感。因此使用Laplace(或Student)线性回归模型能对噪声鲁棒。三、SVM分类。(第15题各4分,第6题5分,共25分)下图为采用不同核函数或不同的松弛因子得到的SVM决策边界。但粗心的实验者忘记记录每个图形对应的模型和参数了。请你帮忙给下面每个模型标出正确的图形。Ihf-eix* A1* A 1 i -i* *、 墓冲上旦巧cip -|i-r| |*答:1.c 2.b 3.d 4.a 5.e6、考虑带松弛因子的线性 SVM分类器:it-7.也;Wf 凶 Yr WJF面有一些关于某些变量随参数C的增大而变化的表述。如果表述总是成立,标示如果表述总是不成立,标示否”;如果表述的正确性取决于C增大的具体情况,标示是”;不一(1) w0不会增大(不一定)|w|增大(不一定)(3)|w|不会减小 (是)(4)会有更多的训练样本被分错(否)间隔(Margin)不会增大(是)四、一个初学机器学习的朋友对房价进行预测。他在一个N=1000个房价数据的数据集上匹配了一个有533个参数的模型,该模型能解释数据集上99%的变化。1、请问该模型能很好地预测来年的房价吗?简单解释原因。(5分)2、如果上述模型不能很好预测新的房价,请你设计一个合适的模型,给出模型的参数估计,并解释你的模型为什么是合理的。(10分)答:1不能。因为模型参数过多太复杂,训练集上拟合太好,把错误点也考虑进来,因此发 生了过拟合,预测误差较大。2.对之进行 L1正则,即Lasso回归。yN(wTx,知wLap(0,t)L( 0 )=C-工(yl-w) 2/2 2-工 |wi|/b NLL=RSS+入 |w|通过调节L1正则系数入大小避免模型过拟合,而且估计w参数的同时进行了特征选择, 得系数w尽可能多的为0,简化了模型。第5页共4页
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!