机器学习与深度学习网络和架构课件

资源描述

机器学习与深度学习网络和架构机器学习与深度学习网络和架构目目录录p机器学习的基础p神经元网络p深层神经元网络p延伸和应用p深层学习实现架构p未来和思考目录机器学习的基础小学生解方程小学生解方程a3+b=10a8+b=30a=?b=?小学生解方程高中，高中，大学大学-矩矩阵阵，矢量，矢量高中，大学-矩阵，矢量线线性回性回归归及分及分类类机器学机器学习习背景背景Y是一个N维向量XT是一转置矩阵N*(p+1)是一个p+1的向量线性回归:，给定X,和Y,计算以最佳匹配X,Y的关系。Np+1。即为线性回归模型的参数。k表明对应的维度，Xk的重要性什么为最佳匹配？线性回归及分类机器学习背景Y参数估参数估计计方法一：方法一：最小化最小化误误差平方和差平方和机器学机器学习习背景背景参数估计方法一：最小化误差平方和机器学习正正则则化化L2(Ridge)Regularization限制参数的大小，以避免过拟合正则化L2(Ridge)Regularizati正正则则化化L1Regularization(Lasso)限制参数的大小，以避免过拟合Noclosedformfor正则化L1Regularization(Las逻辑逻辑回回归归jG逻辑回归jG逻辑逻辑回回归归-参数参数训练训练jG训练目标函数：最大似然对数概率牛顿迭代：逻辑回归-参数训练jG训练目标函数：最大似然对数概目目录录p机器学习的基础p神经元网络p深层神经元网络p延伸和应用p深层学习实现架构p未来和思考目录机器学习的基础神神经经元网元网络络p单层前向网络p两阶段回归或分类pK-Class分类p最底层为数据层p最上层为输出层p中间层为隐含层p这种简单的NN称为Perceptron神经元网络单层前向网络神神经经元网元网络络-输输入入层层到到隐隐含含层层p中间层为输入层线性组合的某函数p其中为激活函数:sigmoid神经元网络-输入层到隐含层中间层为输入层线性组合神神经经元网元网络络-激活函数激活函数p为激活（Activation)函数(红线）p0线性函数神经元网络-激活函数为激活（Activation)函神神经经元网元网络络，隐隐含含层层到到输输出出层层p输出层为中间层的线性组合p回归问题pK-Class分类问题，softmax函数神经元网络，隐含层到输出层输出层为中间层的线性组合回训练训练神神经经元网元网络络：参数集合及参数集合及维维度度p神经元网络参数集合训练神经元网络：参数集合及维度神经元网络参数集合训练训练神神经经元网元网络络优优化参数求化参数求导导p最小化目标函数：最小误差平方和及求导训练神经元网络优化参数求导最小化目标函数：最小误差训练训练神神经经元网元网络络-BackPropagationp梯度下降迭代算法输出层误差：ki隐含层误差：smi训练神经元网络-BackPropagation梯BP算法算法p初始化参数p两阶段算法：Two-Passp前向Forward-Pass：给定参数，计算输出值p后向Backward-Pass:计算输出层误差，计算隐含层误差，更新参数BP算法初始化参数BP算法图示（1985）inputvectorhiddenlayersoutputsBack-propagateerrorsignaltogetderivativesforlearningCompareoutputswithcorrectanswertogeterrorsignalBP算法图示（1985）inputvectorhidde20神神经经元网元网络络小小结结神经元网络小结目目录录p机器学习的基础p神经元网络p深层神经元网络p延伸和应用p深层学习实现架构p未来和思考目录机器学习的基础机器学习与深度学习网络和架构课件23BP算法在深算法在深层层神神经经元网元网络络中的中的问题问题依依赖赖于于标标注的注的训练训练数据数据目前大量数据为非标注数据训练时间长训练时间长，很很难规难规模化模化多层神经元网络训练很慢会停会停驻驻在性能在性能较较差的本地差的本地优优化点化点浅层网络，该问题不明显深层网络，问题显著BP算法在深层神经元网络中的问题依赖于标注的训练数据支持向量基支持向量基（SVM)一个特殊的神一个特殊的神经经元网元网络络StillPerceptron一个特殊的单隐含层网络每个训练案例用于构造一个特征，该特征用于测量改训练案例和测试案例的距离SVM训练选择自由特征集以及特征的权重1990-2010很多让放弃NN,选择SVMnon-adaptivehand-codedfeaturesoutputunitse.g.classlabelsinputunitse.g.pixelsSketchofatypicalperceptronfromthe1960sBombToy支持向量基（SVM)一个特殊的神经元网络StillPe深层信任网络（Deep Belief Net，DBN)是部分解决了以上问题的神经元网络机器学习与深度学习网络和架构课件26机器学习与深度学习网络和架构课件谁谁重新激活了神重新激活了神经经元网元网络络？GeoffreyHinton出生于：1947专业：学士，心理学，1970，博士，人工智能，1978多伦多大学教授Google研究中心1986：神经元网络BP算法发明人之一深度学习主要贡献人I GET VERY EXCITED WHEN WE DISCOVER A WAY OF MAKING NEURAL NETWORKS BETTER AND WHEN THATS CLOSELY RELATED TO HOW THE BRAIN WORKS.谁重新激活了神经元网络？GeoffreyHintonI谁谁重新激活了神重新激活了神经经元网元网络络？NCAP:神经计算和自适应感知项目2004NCAPResearchersYoshuaBengioYannLecun(FaceBook)AndrewNg(Baidu)20OthersCoreTeam谁重新激活了神经元网络？NCAP:神经计算和自适应感知项目深度学深度学习习的的2006年，GeofferyHintonScience发表DBN文章。2012年，Hinton,ImageNet,26%-15%。2012年，AndrewNg和分布式系统顶级专家JeffDean，GoogleBrain项目，16000个CPU核的并行,10亿个神经元的深度神经网络2012年，微软首席研究官RickRashid在21世纪的计算大会上演示了一套自动同声传译系统2013年，Hinton-Google;YannLeCun-Facebook;用户图片信息提取2013年，百度成立了百度研究院及下属的深度学习研究所（IDL），2014年，AndrewNg-Badidu深度学习的2006年，GeofferyHintonSci机器学习与深度学习网络和架构课件可信任网可信任网络络BeliefNets（BN）一个BN是一个由随机变量组成的有向非循环图一部分变量为可观察已知变量如何由已知变量推断出非观察变量的状态调整变量之间连接的参数优化：最大可能重新生成观察变量stochastichiddencausevisibleeffectWewillusenetscomposedoflayersofstochasticbinaryvariableswithweightedconnections.Later,wewillgeneralizetoothertypesofvariable.可信任，信任什么？可信任网络BeliefNets（BN）一个BN是一随机的二元单元(Bernoulli variables)隐含层的神经元的状态为0或1该神经元激活的概率为输入层加权和的sigmoid函数001随机的二元单元(Bernoullivariables)隐33RestrictedBoltzmannMachines（RBM)限制神经元之间的链接以简化参数学习.只包含一个隐含层.多隐含层后期引入隐含层单元之间无链接.给定输入可观察矢量，隐含层单元之间独立隐含层和输入层之间为无向链接hiddenijvisibleRestrictedBoltzmannMachinesRBM训练训练ijijijijt=0t=1t=2t=infinity从可观察训练矢量开始，交替更新隐含层和可观察矢量层单元afantasyRBM训练ijijijijt=0小小结结一个基一个基础础的的DBN网网络络p决定DBN的隐含层数以及隐含层的神经元数p每两层之间依据RBM单独依次训练参数p训练完的两层网络简单叠加起来成为深层网络p利用BP算法对叠加后的网络连接参数进一步优化pRBMPseudo代码pFort=0ton:pVt-Ht基于sigmoid函数和Gibbs采样pHt-Vt+1基于sigmoid函数和Gibbs采样pVt+1-Ht+1基于sigmoid函数和Gibbs采样p更新参数W:pRBMCode小结一个基础的DBN网络决定DBN的隐含层数以及隐含层的目目录录p机器学习的基础p神经元网络p深层神经元网络p延伸和应用p深层学习实现架构p未来和思考目录机器学习的基础深度学深度学习习目前常用的架构目前常用的架构深度神经元全连网络DNN(DeepNeuralNets),Tensor-DNN卷积神经元网络CNN(ConvolutionalNeuralNets)深度叠拼神经元网络DSN(DeepStackingNets);Kernel-DSN,Tensor-DSN循环神经元网络RNNs(RecurrentandrecursiveNeuralNets)深度学习目前常用的架构DNN在在语语音音识别识别中的中的应应用用DNN在语音识别中的应用DNN在在语语音音识别识别中的中的应应用用DNN在语音识别中的应用语语音音识别识别中的中的BottleNeck特征特征语音识别中的BottleNeck特征图图像像识别识别中的神中的神经经元网元网络应络应用用卷积神经元网络ConvolutionNeuralNetwork(CNN)输入层可以使多元的，也可以是一元的图像识别中的神经元网络应用卷积神经元网络输入层可以使多元的，图图像像识别识别中的神中的神经经元网元网络应络应用用：卷：卷积层积层p输入：维度的矩阵Xp输出：维度的矩阵p连接输入和输出的参数：维度的矩阵W图像识别中的神经元网络应用：卷积层输入：图图像像识别识别中的神中的神经经元网元网络应络应用用：Pooling层层p输入：region，矩阵p输出：Asinglevalue，p连接输入输出层参数：无p最大值poolingp均值pooling图像识别中的神经元网络应用：Pooling层输入：图图像像识别识别中的神中的神经经元网元网络应络应用用：全：全连层连层p同DNN图像识别中的神经元网络应用：全连层同DNN卷卷积积神神经经元网元网络络的架构的架构卷积神经元网络的架构ImageNet2012年年竞赛竞赛ImageNet2012年竞赛ImageNet2013年年竞赛竞赛目前图像中物体识别性能ImageNet2013年竞赛目前图像中物体识别性能语语音音识别识别中中CNN的使用的使用（2013，SainathIEEE)语音识别中CNN的使用（2013，SainathIE循循环环神神经经元网元网络络RNN循环神经元网络RNNRNN同同DNN的比的比较较RNN同DNN的比较BackPropagationThroughTime(BPTT)p三类参数p训练方式可等同于前向网络在时域的组合BackPropagationThroughTime双向双向RNN实现实现训练算法：uRBM初始化每个时间点t的网络uBPTT,BP算法的扩展优化参数训练双向RNN实现训练算法：神经元网络在自然语言处理中的应用语言模型信息分类信息聚类信息提取搜索翻译词向量语义表示神经元网络在自然语言处理中的应用语言模型一批关一批关键键的文章的文章YoshuaBengio,RejeanDucharme,PascalVincent,andChristianJauvin.Aneuralprobabilisticlanguagemodel.JournalofMachineLearningResearch(JMLR),3:11371155,2003.PDFRonanCollobert,JasonWeston,LonBottou,MichaelKarlen,KorayKavukcuogluandPavelKuksa.NaturalLanguageProcessing(Almost)fromScratch.JournalofMachineLearningResearch(JMLR),12:2493-2537,2011.PDFAndriyMnih&GeoffreyHinton.Threenewgraphicalmodelsforstatisticallanguagemodelling.InternationalConferenceonMachineLearning(ICML).2007.PDFAndriyMnih&GeoffreyHinton.Ascalablehierarchicaldistributedlanguagemodel.TheConferenceonNeuralInformationProcessingSystems(NIPS)(pp.10811088).2008.PDFMikolovTom.StatisticalLanguageModelsbasedonNeuralNetworks.PhDthesis,BrnoUniversityofTechnology.2012.PDFTurianJoseph,LevRatinov,andYoshuaBengio.Wordrepresentations:asimpleandgeneralmethodforsemi-supervisedlearning.Proceedingsofthe48thAnnualMeetingoftheAssociationforComputationalLinguistics(ACL).2010.PDFEricHuang,RichardSocher,ChristopherManningandAndrewNg.Improvingwordrepresentationsviaglobalcontextandmultiplewordprototypes.Proceedingsofthe50thAnnualMeetingoftheAssociationforComputationalLinguistics:LongPapers-Volume1.2012.PDFMikolov,Tomas,Wen-tauYih,andGeoffreyZweig.Linguisticregularitiesincontinuousspacewordrepresentations.ProceedingsofNAACL-HLT.2013.PDF一批关键的文章YoshuaBengio,RejeanDDNN语语言模型言模型DNN语言模型RNN语语言模型言模型u没有必要定义上下文长度u没有投影层（NoWordEmbedding)u前一层的隐含链接下一个词的隐含层RNN语言模型没有必要定义上下文长度其他的深度学其他的深度学习习架构：架构：DeepStackingNetwork(DSN)特点u线性和非线性层交替u训练更容易并行u优化目标凸函数（convex)其他的深度学习架构：DeepStackingNetwo目目录录p机器学习的基础p神经元网络p深层神经元网络p延伸和应用p深层学习实现架构p未来和思考目录机器学习的基础深度学深度学习实现习实现的物理架构的物理架构挑战：u训练数据规模庞大u计算开销大u训练过程收敛难u训练用时久解决方案：uGPU计算资源并行uCPU集群几万神经元，几千万参数深度学习实现的物理架构挑战：几万神经元，几千万参数工工业业界深度学界深度学习习平台架构平台架构百度百度FacebookGoogle腾讯腾讯平台名称PaddleN/ADisbliefCotsMariana应用模型&数据CPU/GPUGPUGPUCPUGPUGPU&CPU硬件规模1.6W3台GPU服务器参数规模DownpourSGD和L-BFGS10亿主要应用人脸识别和提取语音识别图形语音识别，图像粗粒工业界深度学习平台架构百度FacebookGoogle腾讯平深度学深度学习习开源开源软软件件KaldiCuda-CovnetCaffeTheanoTorch7OverFeat领域语音识别图像分类Matlab免费版图像识别及特征提取GPU/CPUGPUGPUGPUGPU/CPUGPU算法SGDSGD设计者UniJohnHopkinsUivofToronto纽约大学功能GPUGPUCPUGPU&CPUGPU实现语言C+CudaC+CudaPython深度学习开源软件KaldiCuda-CovnetCaffeT腾讯腾讯深度学深度学习习平台平台MarianaDNN的GPU数据并行框架CNN的GPU数据并行和模型并行框架DNNCPU集群框架GPU服务器为主4-6NvidiaTeslaGPUCards(系列高端科学计算用)2000流处理器/GPUcard并行计算腾讯深度学习平台MarianaDNN的GPU数据并行框架G深度学深度学习习并行策略并行策略模型并行将训练数据划分为多份，每份数据有一个模型实例进行训练，再将多个模型实例产生的梯度合并后更新模型数据并行模型并行指将模型划分为多个分片，每个分片在一台服务器，全部分片协同对一份训练数据进行训练流式控制深度学习并行策略模型并行DNNGPU的并行架构的并行架构DNN的数据并行框架通过同步随机梯度下降进行训练。每个GPU卡各自训练，并各自产生一份梯度值，然后进行参数交换。自适应学习率算法，使得支持自适应学习率所需交换的数据量降低了一个数量级。参数交换的成本DNNGPU的并行架构DNN的数据并行框架通过同步随机CNN-GPU并行架构并行架构-腾讯腾讯u模型拆分u数据拆分u流式控制GPU卡分组组内两个GPU卡做模型并行，组间做数据并行CNN-GPU并行架构-腾讯模型拆分GPU卡分CNN-GPU并行架构并行架构-腾讯腾讯u模型拆分u数据拆分u流式控制GPU卡分组组内两个GPU卡做模型并行，组间做数据并行CNN-GPU并行架构-腾讯模型拆分GPU卡分DNNCPU并行架构并行架构DNNCPU并行架构目目录录p机器学习的基础p神经元网络p深层神经元网络p延伸和应用p深层学习实现架构p未来和思考目录机器学习的基础IBMSynapse自适自适应应塑料可伸塑料可伸缩电缩电子神子神经经形形态态系系统统SyNAPSEisaDARPA-fundedprogramtodevelopelectronicneuromorphicmachinetechnologythatscalestobiologicallevels.Moresimplystated,itisanattempttobuildanewkindofcomputerwithsimilarformandfunctiontothemammalianbrain.Suchartificialbrainswouldbeusedtobuildrobotswhoseintelligencematchesthatofmiceandcats.SyNAPSEisabackronymstandingforSystemsofNeuromorphicAdaptivePlasticScalableElectronics.Itstartedin2008andasofJanuary2013hasreceived$102.6millioninfunding.Itisscheduledtorununtilaround2016.TheprojectisprimarilycontractedtoIBMandHRLwhointurnsubcontractpartsoftheresearchtovariousUSuniversities.IBMSynapse自适应塑料可伸缩电子神经形态系统SyIBMSynapse自适自适应应塑料可伸塑料可伸缩电缩电子神子神经经形形态态系系统统2007Apr-ToddHyltonjoinsDARPAtofoundtheproject2008Apr-DARPApublishesasolicitationforapplicationsMay-DuedateforinitialproposalsOct-WinningcontractorsannouncedNov-Phase0start2009Sep-Phase1startNov-Announcementofcat-scalebrainsimulation20102011Aug-AnnouncementofneuromorphicchipimplementationSep-Phase2startDec-Announcementoffirstmemristorchip2012Feb-ToddHyltonleavesDARPA,GillPratttakesoverasprogrammanagerMay-NeuromorphicarchitecturedesignpublishedNov-TrueNorth/Compasssimulationof530billionneuronsannounced2013Feb-Expectedannouncementofmulti-coreneurosynapticchips(1millionneuronsperchip)Mar-Phase3tobegin(estimateddate)2014Oct-Phase4tobegin(estimateddate)20152016ProgramendIBMSynapse自适应塑料可伸缩电子神经形态系统20猫猫脑脑机机2009IBMDawn-theBlueGene/Psupercomputer150KCPU,144TMemory模拟猫脑Corticalsimulationswith109neurons,1013synapses，16亿神经元，万亿链接Criticism of the cat brain simulation claim猫脑机2009IBMDawn-theBlBrainWallSyNAPSE（SystemsofNeuromorphicAdaptivePlasticScalableElectronics)TheBrainWall:ANeuralNetworkVisualizationToolbyIBMSyNAPSEResearchersBrainWallSyNAPSE（Systemsof数字神数字神经经元芯片元芯片,CMOS,Memristor数字神经元芯片,CMOS,MemristorSynapse的合作者的合作者DARPA-programmanagedbyGillPrattIBMResearch-CognitiveComputinggroupledbyDharmendraModhaColumbiaUniversityMedicalCenter-Theoreticalneuroscienceresearch,developmentofneuralnetworkmodels,ledbyStefanoFusiCornellUniversity-AsynchronousVLSIcircuitdesign,theneurosynapticcore,ledbyRajitManoharUniversityofCalifornia,Merced-environmentresearch,ledbyChristopherKelloUniversityofWisconsin-Madison-Simulation,theoryofconsciousness,computermodels,ledbyGiulioTononiHRLLaboratories-Memristor-basedprocessordevelopmentledbyNarayanSrinivasaBostonUniversity:StephenGrossberg,GailCarpenter,YongqiangCao,PraveenPillyGeorgeMasonUniversity:GiorgioAscoli,AlexeiSamsonovichPortlandStateUniversity:ChristofTeuscherSetCorporation:ChrisLongStanfordUniversity:MarkSchnitzerTheNeurosciencesInstitute:GeraldEdelman,EinarGall,JasonFleischerUniversityofCalifornia-Irvine:JeffKrichmarUniversityofMichigan:WeiLuSynapse的合作者DARPA-programSynapse投入投入经费经费102MillionDollarsIBM&collaboratorsHRL&collaboratorsTotal(IBM+HRL)November2008(phase0)$4,879,333$5.9million$10.8millionAugust2009(phase1)$16.1million$10.7million$26.8millionAugust2011(phase2)$21million$17.9million$38.9millionTotal$42million$34.5million$76.5millionSynapse投入经费102MillionDoll

展开阅读全文

机器学习与深度学习网络和架构课件

最新文档