机器学习与深度学习实践-人工智能python课程课件

资源描述

机器学习与深度学习实践机器学习与深度学习实践1声明Acknowledgments假设参与此门课程的同学具有python基础及高等数学基础。不要求有深刻的算法基础，但对于基本的数据结构和算法要有一定了解。参考资料：取自于sklearn、tensorflow官方网站、斯坦福大学CS224d、CS231n课件、Github的部分代码仓库、部分来源于网络和搜索引擎，也有部分资料和代码是自行完成的。参考书籍：机器学习、统计学习方法、模式识别与机器学习、Hands-OnMachineLearningWithScikit-Learn&TensorFlow等课后如果有问题，欢迎联系交流声明 Acknowledgments假设参与此门课程的同学具2Day1大纲人工智能概述人工智能概述人工智能中的数学基础人工智能中的数学基础回归与分类回归与分类线性回归，Logistic 回归，Softmax回归决策树决策树多种决策树模型，Bagging，Boosting思想朴素贝叶斯朴素贝叶斯自然语言处理，文本分类Day1大纲3人工智能概述人工智能概述4从人工智能谈起智能设备、聊天机器人、无人驾驶、机器人.https:/ NG 机器学习、深度学习等课程学习方法google机器学习教程：https:/v.qq.15准备工作安装anaconda3并配置pycharm 安装sklearn/numpy/pandas/matplotlib/xgboost 安装pycharm，并设置python解释器路径编写hello，world并成功执行准备工作16人工智能中的数学基础人工智能中的数学基础17数学分析映射与函数极限导数导数是曲线的斜率，是曲线变化快慢的反应；可导一定连续，反之不然思考：极值如何求解？数学分析思考：极值如何求解？18数学分析常用函数求导公式动手实践(2)：求sigmoid函数导数数学分析动手实践(2)：求sigmoid函数导数19数学分析泰勒展开式常用函数的泰勒展开在某邻域内，存在一阶近似、二阶近似、在某邻域内，存在一阶近似、二阶近似、.逼近逼近非线性函数求解非线性函数求解数学分析在某邻域内，存在一阶近似、二阶近似、.20数学分析梯度下降法练习：使用梯度下降法求解y=x2思考：什么情况下有全局最优解？10J(0,1)01J(0,1)数学分析练习：使用梯度下降法求解y=x210J(0,21数学分析练习sgd.py运行平方函数平方函数的导数数学分析平方函数平方函数的导数22数学分析练习sgd.py运行GD_decay：x_start-初始位置df-平方函数epochs-迭代次数lr-学习率decay-学习率衰减系数循环循环：迭代计算下一次x的位置数学分析GD_decay：循环：23数学分析首先生成基础采样点给后面使用做了双重验证并绘制图像数学分析首先生成基础采样点给后面使用做了双重验证并绘制图像24数学分析梯度下降法xt+1=xt-af(xt)”最快”过于盲目、有缺陷进一步利用曲线二阶导的信息进行迭代求解，称为牛顿法xt+1=xt-f(xt)/f(xt)数学分析xt+1=xt-af(xt)”最快”过于盲25数学分析多元函数的导数如何表达？多元函数的梯度呢？多元函数的二阶导是什么？f(x)=f(x1,x2,.)一阶(偏)导数：fx1(x1,x2.),fx2(x1,x2.),.，它们的线性加和称为方向导数hessian矩阵G数学分析f(x)=f(x1,x2,.)一阶(偏)导26数学分析总结变量、函数求导规则、泰勒展开式YanLeCun：可微分式编程数学分析Yan LeCun：可微分式编程27线性代数线性变换指旋转、推移，他们的组合是线性变换为什么研究线性变换线性代数28线性代数矩阵和乘法矩阵的本质：线性变换！什么情况下矩阵乘法是旋转矩阵呢？线性代数矩阵的本质：线性变换！29线性代数矩阵仅对角线有非零值的矩阵为缩放矩阵，对角线元素代表了每个维度的缩放强度列向量正交且为单位向量的矩阵，也即正交阵为旋转矩阵思考：这两个矩阵的现实意义？线性代数仅对角线有非零值的矩阵为缩放矩阵，对角线元素代表了每30线性代数分离技术-特征值分解非常重要且广泛的应用包括：控制系统推荐系统文本相似度处理图像压缩.线性代数非常重要且广泛的应用包括：31线性代数分离技术-svd/NFM分解useritem线性代数useritem32线性代数再看特征值分解相似矩阵思考：(1)变换与逆矩阵(2)什么情况下有逆矩阵(3)P与P的逆乘积线性代数思考：33线性代数行列式考察单位阵、旋转阵行列式的本质：线性变换的缩放因子变换是否降维(秩)线性代数考察单位阵、旋转阵34线性代数总结矩阵线性变换特征值缩放强度行列式缩放强度线性代数矩阵线性变换35概率论概率与直观不断抛掷一枚硬币，得到正面与反面的频率比例是多少呢？经过无数次抛掷，频率的极限趋近于X?抛掷趋于无穷次时，正反面频率一致，根据大数定理概率论抛掷趋于无穷次时，正反面频率一致，根据大数定理36概率论概率的计算已知A、B独立时概率论37概率论条件概率全概率公式贝叶斯公式练习：小明有8支步枪，其中有5支校准过。校准过的枪支击准靶心的概率为0.8，没有校准过的枪支击准靶心的概率为0.3，现小明随机的选一支枪，结果中靶，问该枪已被校准的概率。概率论练习：小明有8支步枪，其中有5支校准过。校准过的枪支击38概率论根据贝叶斯公式概率论39概率论重温贝叶斯公式强调：这是一个非常重要的公式，记住它，基本就掌握了机器学习一半的内容概率论强调：这是一个非常重要的公式，记住它，基本就掌握了机器40概率论期望与方差E(x)表征了数据的加权平均值，D(x)表征了数据的波动程度概率论E(x)表征了数据的加权平均值，D(x)表征了数据的波41概率论变量的分布有一类试验，比如抛掷硬币得到正面还是反面，项目成功或失败，产品是否有缺陷，只有两个可能结果。记这两个可能的结果为0和1，该分布就称为伯努利分布。概率论有一类试验，比如抛掷硬币得到正面还是反面，项目成功或失42概率论变量的分布伯努利分布重复N次，就构成了二项分布。排列、组合数公式复习：袋子中有五个标号的小球，每次从中抽取一个，抽取三次，得到的排列方式有多少种呢？袋子中有五个标号的小球，每次抽取一个，抽取三次，不考虑球之间的顺序，得到的编号组合有多少种呢？概率论伯努利分布重复N次，就构成了二项分布。排列、组合数公式43概率论变量的分布高斯分布，服从中心极限定律，是非常重要的分布。概率论高斯分布，服从中心极限定律，是非常重要的分布。44概率论练习multi_guassian.py概率论45概率论熵世界杯比赛有32支球队参加，最少用多少bit信息表示出最后获胜的队伍？概率论世界杯比赛有32支球队参加，最少用多少bit信息表示出46总结人工智能中的数学并不难，关键是掌握常用的思维方式练习推导，理解数学表达式所蕴含的现实意义总结47机器学习实践机器学习实践48机器学习实践机器学习基础理论和概念机器学习基本方法项目实战分析机器学习实践49机器学习基础机器学习主要是研究如何使计算机从给定数据中学习规律，并利用学习到的规律(模型)来对未知或无法观测的数据进行预测。机器学习基础50机器学习基础从学习方式上讲，分为：监督学习无监督学习半监督学习强化学习从学习结果上讲，分为：回归分类强调：目前主流学习技术是监督学习，半监督学习和强化学习在通用场景下还不是特别的work机器学习基础强调：目前主流学习技术是监督学习，半监督学习和强51机器学习基础从学习方式上讲，分为：监督学习无监督学习半监督学习强化学习从学习结果上讲，分为：回归分类强调：目前主流学习技术是监督学习，半监督学习和强化学习在通用场景下还不是特别的work机器学习基础强调：目前主流学习技术是监督学习，半监督学习和强52线性回归线性回归是最基础的回归算法train0123456789x0123456789y24.6-24.012.2-55.9-57.816.5-7.9-17.3-23.187.4思考：x与y符合什么关系呢？观察到x与y的关系（模型选择），y=ax+b，建立线性回归模型通过优化方法设法拟合数据，得到最优的a评估该模型是否准确，查看训练集上的准确率评估该模型的泛化性能，在测试集上的准确率线性回归train0123456789x012345678953线性回归基本概念训练集测试集(交叉验证法、自助法等)目标函数损失函数优化方法拟合、过拟合准确率、泛化性能线性回归54线性回归目标函数、优化方法推导不可能有一个理想的线性函数经过所有训练集的数据点，这个问题怎么处理呢？高斯：“把偏移都看做误差”这又是一个假设，但是机器学习的套路就是这样的线性回归目标函数、优化方法推导55线性回归使用求极值方法求解目标函数线性回归使用求极值方法求解目标函数56线性回归使用求极值方法求解目标函数思考：XTX一定可逆吗？线性回归使用求极值方法求解目标函数思考：XTX一定可逆吗？57线性回归直接采用极值方法求解，有什么缺点？如果不是拿到所有样本点再求解，仅仅只看眼前的梯度逐渐求解呢？线性回归直接采用极值方法求解，有什么缺点？58线性回归使用梯度下降法求解目标函数10J(0,1)线性回归使用梯度下降法求解目标函数10J(0,1)59线性回归只根据眼前的路径梯度下降求解的方法，称为随机梯度下降法(SGD)实际上使用样本的过程中，出于效率和稳定性的考虑，我们使用MiniBatch-SGD方法，使用批处理平均来进行梯度更新，而不是对每一个数据都进行一次梯度更新思考：目标函数一定有最小值吗？线性回归思考：目标函数一定有最小值吗？60线性回归进一步分析可以对样本是非线性的，对系数是线性的polynomial方法线性回归可以对样本是非线性的，对系数是线性的61线性回归准确度评估对于连续数据(回归问题)，一般使用方差评估对于离散数据(分类问题)accuracy、precision/recall例：训练样本有100个，正负标记各50个，经过模型分类后，正负样本结果仍为各50个。在正样本中，分对40个，分错10个，负样本中，分对30个，分错20个，则：accuracy=(100-10-20)/100=0.7precision=40/50=0.8recall=40/60=0.66线性回归62线性回归准确度评估强调：F1越大越好，最大值是1，对于二分类问题，F1=0.5就等价于”胡猜”线性回归强调：F1越大越好，最大值是1，对于二分类问题，F163线性回归再谈准确度问题训练集上的P、R达到100%，是最好的情况吗？线性回归64线性回归避免过拟合，引入正则化技术分别称为LASSO回归、Ridge回归LASSO具有稀疏作用，Ridge收敛更快我们说，目标函数仍然是不带正则化的原函数，经过改造的上式称为损失函数强调：优化的目标就是让loss最小线性回归分别称为LASSO回归、Ridge回归65线性回归练习：使用线性回归预测房价走势degree线性回归模型拟合及预测线性回归degree线性回归模型拟合及预测66线性回归线性回归是一种回归算法线性回归是一种回归算法模型简单、计算量较小模型简单、计算量较小对误差敏感对误差敏感对数据预处理要求较高对数据预处理要求较高思考：能否使用线性回归思考：能否使用线性回归解决分类问题呢？解决分类问题呢？线性回归线性回归是一种回归算法67logistic回归logistic回归是最基础的分类算法回顾伯努利分布，一次实验的结果只有0、1两种选择根据贝叶斯公式，如果只考虑P(A|B)，则称为极大似然估计以硬币实验为例，现投掷10次，出现正面6次，反面4次假设硬币正反概率出现的先验分布P(B)均匀，且上述证据P(A)已成定局，则求P(B|A)就是求P(A|B)即似然函数的最大值logistic回归以硬币实验为例，现投掷10次，出现正面668logistic回归logistic回归推导根据极大似然估计，假设事件发生的概率是p，则最大似然函数为：有了P是不够的！我们要拟合原始数据引入sigmoid假设：扩展知识点：广义线性模型假设logistic回归有了P是不够的！我们要拟合原始数据引入s69logistic回归logistic回归推导扩展知识点：广义线性模型假设：logistic回归70logistic回归继续推导强调：虽然logistic回归是最基本的分类模型，但它的使用极为广泛，尤其在金融、推荐、商业化等场景中。logistic回归强调：虽然logistic回归是最基本的71logistic回归练习：使用logistic回归对鸢尾花数据做分类logistic回归72logistic回归logistic回归是一种分类算法模型简单、计算量较小对异常数据点并不敏感对数据预处理要求较高logistic回归73logistic回归思考，如下数据能够使用logistic分类吗？这个技巧称为核(kernel)方法，是一种非线性分类器，想深入研究的同学们可以自行查阅svm、kernel相关资料。logistic回归这个技巧称为核(kernel)方法，是一74Q&A?DisscussionQ&A?Disscussion75决策树决策树能用来做回归，也可以用来做分类是一类算法的总称决策树是描述对数据进行分类的树形模型，可以是二叉树或非二叉树，内部节点(绿色)表示一个特征或属性，叶子节点(橘色)表示一个结果类。在做回归任务时，以叶子节点的值指代输出值。思考：分类标准如何选定？决策树决策树是描述对数据进行分类的树形模型，思考：分类标准如76决策树信息熵：表征了信息不确定性的程度分类属性应当以最高熵减为标准进行人种分人种分类训练数据数据编号眼睛颜色头发颜色身高体重亚洲人1BlackBlackShortFatYes2BlackWhiteTallThinYes3BlackWhiteShortThinYes4BrownGoldTallFatNo5BrownGoldShortFatNo6BrownWhiteTallThinNo考虑一本书，只有考虑一本书，只有一个中文汉子，编一个中文汉子，编码它需要几个字节码它需要几个字节呢？呢？决策树表征了信息不确定性的程度人种分类训练数据编号眼睛颜色头77决策树以眼睛颜色分类：s(d1)以头发颜色分类：s(d2)以身高分类：s(d3)以体重分类：s(d4)编号号眼睛眼睛颜色色头发颜色色身高身高体重体重亚洲人洲人1BlackBlackShortFatYes2BlackWhiteTallThinYes3BlackWhiteShortThinYes4BrownGoldTallFatNo5BrownGoldShortFatNo6BrownWhiteTallThinNo决策树编号眼睛颜色头发颜色身高体重亚洲人1BlackBlac78决策树上文中计算了信息增益(等同于信息熵减)，也即间接的利用了所谓的条件熵，这里给出形式化的推导H(Y|X)=H(X,Y)-H(X)决策树H(Y|X)=H(X,Y)-H(X)79决策树具体步骤 (1)、首先选择“眼睛”这个属性 (2)、分裂出三个中间节点，之后选择其他属性，继续划分 (3)、直到新节点中的类别均一致，或特征都用尽为止思考：第(3)步是最好的情况吗？剪枝、限制树高等以上，就是决策树中的ID3算法决策树思考：第(3)步是最好的情况吗？剪枝、限制树高等以上，80决策树思考如下问题：如果数据某一列是人员id(数字)，那么按信息增益的分裂方式，该列一定会被作为首选属性，然而这对泛化性能毫无益处这是ID3算法的缺陷，因此C4.5算法采用了信息增益率决策树81随机森林一棵树比较单薄弱分类器的bagging策略随机森林在bagging策略上作出修改：(1)、bootstrap采样 (2)、随机选择特征，选择最佳属性建立决策树 (3)、形成随机森林，通过投票得到结果注：bootstrap来自于”pull up by your own bootstraps”，意思是依靠自己的资源，称为自助法。前面已经讲过，这是一种对样本的重复利用方法。OOB数据：约为36%，用作测试数据。投票投票!随机森林注：bootstrap来自于”pull up by 82随机森林思考如下问题：(1)logistic回归能否用于形成随机森林 (2)随机森林有什么好处，同时有什么问题？假定当前已经得到了m-1棵决策树，是否可以通过现有样本和决策树的信息，对第m棵决策树的建立产生有益的影响呢？随机森林83提升提升是一种机器学习思想，可以用于回归和分类问题，它每一步产生一个弱预测模型，并加权累加至总模型中，如果每一步决策树的生成都是根据损失函数的梯度方向，则称之为梯度提升(Gradient boosting)梯度提升算法首先假设一个损失函数，对于回归可以采用L2 Loss,在这个基础上，通过迭代选择一个负梯度方向上的基分类器来逼近局部最小值考虑利用已有信息，每棵树都在之前的结果上拟合残差使用一阶导得到gbdt(gradient boosting decision tree)、二阶导得到xgboost 提升84提升GBDT模型训练数据：f(x,y,z)=1,2,3,4,5F0如何选择？损失函数计算？Fm呢？强调：GBDT基于的决策树，是一种回归树。同时既不是以ID3、C4.5为方式划分的，也不是以CART方式划分的。它的分割方式是穷举每一个特征分割点，使LSL最小。提升训练数据：f(x,y,z)=1,2,3,4,5强调：GB85提升回顾二阶泰勒展开xgboost利用了二阶导，并加入了正则化处理提升86提升继续推导提升87提升举个例子强调：在一棵树的构建之内，不断选择分割属性，并枚举分割点，使损失函数下降最快。提升强调：在一棵树的构建之内，不断选择分割属性，88决策树练习：使用xgboost对鸢尾花数据做分类决策树89决策树总结决策树是一类具有可解释性、泛化性能较好的模型精度高、无需特征归一化，能够处理缺失值，共线性特征适合于低维稠密数据，不适合高维稀疏数据决策树类算法兼具特征选择能力在金融、推荐、商业化领域用途十分广泛决策树总结90朴素贝叶斯自然语言处理泛谈南京/市长/江大桥南京市/长江/大桥切词是自然语言处理中最基础、最重要的工作。切词是否准确，直接影响到文本处理的精确度。由于中文的特殊性，切词精度问题在很长一段时期内无法得到较好的改善。词典法规则法语言模型基于隐马尔可夫模型等基于LSTM模型，序列标注交集型歧义：结婚的和尚未结婚的他说的确实在理组合型歧义：学生会宣传部把手抬起来朴素贝叶斯南京/市长/江大桥切词是自然语言处理中最基础、最重91朴素贝叶斯语言模型看成句子出现的概率问题：这样分词问题算是有了一个可用的解决方案，同时机器翻译等任务也被整合成了语言模型之间的映射问题。思考：这样做有什么问题？取n-gram这是语言模型的基础工作，常见的是3-gram朴素贝叶斯这样分词问题算是有了一个可用的解决方案，同时机器翻92朴素贝叶斯再次回顾贝叶斯公式：假设有正常/垃圾两类文本的训练数据，上述公式的意思也可以这样表达：思考：A可能是一篇文章、一句话，上述模型如何求解呢？朴素贝叶斯假设有正常/垃圾两类文本的训练数据，上述公式的意思93朴素贝叶斯朴素贝叶斯是最基础的文本分类模型它对文本做了马尔科夫假设强调：文本上的马尔科夫假设是非常强的约束朴素贝叶斯效果较好，与文本的稀疏性有关朴素贝叶斯强调：文本上的马尔科夫假设是非常强的约束94朴素贝叶斯举个例子训练语料料内容内容垃圾垃圾1您好，请关注xxx机器学习产品，我们的联系方式是xxx12老师好，我想请教您一个机器学习的问题03最新优惠促销，打折甩卖，免费产品咨询14基于区块链的版权数据保护，是未来一个可能的技术方向05我们使用机器学习对图片进行分类，模型关注的是图片哪个区域？0朴素贝叶斯训练语料内容垃圾1您好，请关注xxx机器学习产品，95朴素贝叶斯举个例子思考：这样做有什么问题？拉普拉斯平滑其他策略朴素贝叶斯思考：这样做有什么问题？拉普拉斯平滑96朴素贝叶斯练习：使用朴素贝叶斯对垃圾文本分类朴素贝叶斯97朴素贝叶斯朴素贝叶斯是最基础的文本分类模型与常用的概率图模型均有着紧密的关联马尔科夫假设约束较强，该模型能力有限朴素贝叶斯98kaggle ctr预估实战题目网址：https:/ ctr预估实战99kaggle ctr预估实战xgboost+lrstacking思想kaggle ctr预估实战xgboost+lr100Q&A?DisscussionQ&A?Disscussion101

展开阅读全文

机器学习与深度学习实践-人工智能python课程课件

最新文档