资源描述
,Click to edit Master title style,#,#,#,#,#,#,#,#,#,#,深度学习技术介绍,Deep,Learning Technology,深度学习技术介绍,深度学习是机器学习中表征学习方法的一类。一个观测值(例如一幅图像)可以使用多种方式来表示,而某些特定的表示方法可以让机器学习算法更加容易进行学习。表征学习的目标是寻求更好的表示方法并建立更好的模型来学习这些表示方法;,通俗来讲,机器学习是一种算法框架,通过此算法框架,需要让机器具有类似人类的智慧,学会认识世界的一种方式;,为人类提供“大数据,+,简单模型”的实现方式。,什么是深度学习,深度学习是机器学习中表征学习方法的一类。一个观测值(例如一幅,语音识别,图像识别,自然语言处理,深度学习的实际应用类型,语音识别深度学习的实际应用类型,论点:机器学习是要制造一个超级大脑,能够具有人类一样的智慧。,这是一个非常典型的错误。,机器学习是一个古老的计算机学科,而深度学习正是机器学习的一个狭窄领域,并非新生事物。持此观点的人一般都是对此学科一知半解的人。,在工程上,深度学习的目的不是理解人脑的本质,也不是需要制造一个类人的生命体,而是构建有用的机器。神经,网络,(artificial neural networks),能够帮助我们建立更好的计算机系统,用以处理信息。,人脑也是一种处理信息的装置,具有非凡的鞥努力并且在视觉、语音、语义等方面都超过了目前的工程产品,目前研究的方向是用形式算法定义人脑处理这些任务的解,并在计算机上实现此过程。,纠正一个错误,论点:机器学习是要制造一个超级大脑,能够具有人类一样的智慧。,1989,年,计算机已经可以学习识别人类讲话,并且用到了神经网络学习方法和隐马尔科夫模型学习方法;,1989,年,机器学习方法已经被用于训练计算机控制车辆,实现无人驾驶;,1995,年,决策树学习算法已经被,NASA,用来分类天体;,1995,年,计算机已经可以通过学习,在博弈类游戏中击败人类。,人工神经网络的研究历史和数字计算机一样长。,1943,年,,McCulloch,和,Pitts,提出了人工神经网络的第一个数学模型。,1962,年提出了感知器和学习算法。,1969,年有人指出了单层感知器的局限性。,1986,年后,后向传播被发明,单层感知器局限性不复存在。,由于深度学习是机器学习的一个子集,讨论时我们混用这两个名词。,为什么说机器学习是一个古老的学科,1989年,计算机已经可以学习识别人类讲话,并且用到了神经网,人工智能,贝叶,斯方法,计算复杂性理论,控制论,信息论,哲学,心理学和神经生物学,统计学,和机器学习相关的学科,人工智能和机器学习相关的学科,根据,Marr(1982),年理论,理解一个信息处理系统,具有三个被称为分析层面的内容:,计算理论,(computational,theory),对应计算,目标和任务的抽象定义,。,表示和算法,(representation and algorithm),是关于输人和输出,如何表示和从输入到输出变换,的算法说明。,硬件,实现,(,hardware implementation),是系统的实物物理实现。,理解人脑处理信息的过程,根据Marr(1982)年理论,理解一个信息处理系统,具有三,什么是感知器,(perceptron),什么是感知器(perceptron),最简单的分离器设计,最简单的分离器设计,感知器定义了一个超平面,而神经网络感知器事不过是实现超平面的一种方法。给定数据样本,权重可以离线计算,并且将其带入后,感知器就可以用来计算输出的值。,在训练神经网络时,若果未提供全部样本,而是逐个提供实例,则我们通常使用在线学习,并且在每个实例之后更新网络参数,让给网络缓慢的及时调整。这是目前比较常见的一种训练方式。,对于在线学习,不需要全部样本而是需要单个实例上的误差函数。从随机初始权重开始,每次迭代中,我们都对参数稍作调整,以最小化误差,而不是忘记先前学习的。若误差函数可微,则可以使用梯度下降方法。,具有单层权重的感知器,只能逼近输入的线性函数,不能解决,XOR,类型的问题,这些问题的判别式是非线性的。类似的,这种感知器也不能用于非线性回归。鉴于此,,MLP,可以实现非线性的判别。,训练感知器,感知器定义了一个超平面,而神经网络感知器事不过是实现超平面的,这是在训练多层感知器时提出的一个概念。,训练多层感知器与训练感知器是一样的。唯一区别是现在的输出是输入的非线性函数,这要归咎于隐藏单元中的非线性偏倚函数。,在对于多层感知器,计算梯度时误差就向传回到输出一样,所以创造了这个术语。,后,向传播算法,(back propagation,1986),这是在训练多层感知器时提出的一个概念。后向传播算法(back,对于人脸识别,(face,r,ecognition),。,输入是人脸图像,类是需要识别的人,并且,学习程序应当,学习人脸,图像与身份,之间的,关联性。人,脸会有更多,的类,输入图像也更大一些,并且人,脸是三维,的,,不同的姿势和光线等都会导致图像的显著,变化。另外,,对于特定人脸的输人也会出现,问题,,比如说眼镜可能会把眼睛和眉毛,遮住,胡子可能,会,把下巴,盖住等,。,具体应用,-,人脸识别,对于人脸识别(face recognition)。输入是人,对于医学诊断,(medical diagnosis),。输,人是关于患者的,信息,而,类是疾病。输入包括患者的年龄、性别、既往病史、目前症状等。,当然,患者,可能还没有做过某些检查,因此这些输入将会缺失。,检查需要,时间,还可能要花很多,钱,,而目、也许还会给患者带来,不便。因此,除非,我们确信检查将提供有价值的,信息,,否则我们将,不对患者,进行,检查。在医学诊断的情况下,,错误的诊断结果可能会导致我们采取,错误,的治疗或根本不进行治疗,。,在不能确信诊断,结,果的情况,下,,分类器最好还是放弃判定,而等待医学专家来做决断,。,具体应用,-,医学诊断,对于医学诊断(medical diagnosis)。输人是关,在语音识别,(speech recognition),输人是语音,类是可以读出的词汇。这里要学习的是从语音信号到某种语言的词汇的关联性。由于年龄、性别或口音方面的差异,相同词汇的读音不同,这使得语音识别问题相当困难。语音识另的另一个特点是其输入信号是时态的,词汇作为音素的序列实时读出,而且有些词汇的读音会较长一些。,具体应用,-,语音识别,在语音识别(speech recognition),输人是,在语音识别中,“语言模型”的集成是至关重要的,而且提供一语言模型的最好方法仍然是从实例数据的大型一语料库中学习。机器学习在自然语言处理,(natural language processing),方面的应用与日俱增。垃圾邮件过滤就是一种应用,其中垃圾邮件的制造者为一方,过滤者为另一方,一直都在寻找越来越精巧的方法以便超越对方,也许最吸引人的是机器翻译,(machine translation),,经历了数十年手工编写翻译规则的研究之后,最近人们认识到最有希望的办法是提供大量翻译文本实例对,并且让程序自动地提取,一个字符串映射到另一个字符串的规则。,自然语言处理,在语音识别中,“语言模型”的集成是至关重要的,而且提供一语言,生物则定,学,(biometrics),使用,人的生理和行为特征来识别或,认证,人的身份,需要集成,来自,不同形态的输人。生理特征的,例子,是面部图像、指纹,、,虹膜和,手掌,;,行为,特征的例子是,签字,的力度、嗓音、步态和击键。与通常的鉴别过程,(,照片、印刷签名或门令,),相反,会有,许多,不同的,(,不相关的,),输人,伪造,(,欺骗,),更,困难,并且系统更准确,不会对用户太,不方便。机器学习既用于针对,这些不同形态而构建不同的识别,器,,也考虑这些,不同数据源,的,可靠性,用于,组合它们的决策,以便得到接受或拒绝的总体决策,。,生物测定学,生物则定学(biometrics)使用人的生理和行为特征来识,从,数据中学习规则也为,知识抽取,(,knowledge extraction),提供了可能性。规则是一种,解释数据,的简单,模型,,,而,观察该模型我们能得到潜在数据处理的解释。例如,一旦我们学会了,区分,低风险,客户和,高风险客户的判别式,,,我们就拥有了关于低风险客户特性的知识。然后,,我们,就能够利用这些知识,,通过,比如广告等方式,更有效地争取那些潜在的低风险客户,。,机器学习还可以进行,压缩,(compression),。,用规则拟合数据,,我们能,得到比数据更简单,的解释,,需要的存储空间更少,处理所需要,的计算,更,少,例如,,一旦你掌握了加法规则,你,就,不必记忆每对可能数字的和是多少,。,机器学习的另一种用途是,离群点检测,(outlier detection),,,即发现那些不遵守规则的,例外实例。在这种情况下,学习规则之后,我们感兴趣的不是规则,而是规则未能覆盖的例外,他们可能暗示出我们需要注意的异常,如诈骗等。,机器学习的额外用途,从数据中学习规则也为知识抽取(knowledge extra,ALVINN,系统是,ANN,学习的一个典型实例,这个系统使用一个学习到的,ANN,以正常速度在高速公路上驾驶汽车。,ANN,的输入是一个,30,*,32,像素的网格,像素的亮度来自于一个安装在车辆上的前向摄像头。,ANN,的输出是车辆行进的方向。这个,ANN,通过模仿驾驶时的操纵命令进行训练,持续约,5,分钟。,ALVINN,用学到的网络在高速公路上以,70,英里的时速成功行驶了,90,英里。,案例,-ALVINN,系统,ALVINN系统是ANN学习的一个典型实例,这个系统使用一个,ALVINN,系统的神经网络,ALVINN系统的神经网络,形而下者谓之器,形而下者谓之器,人工智能每一次沉寂后的爆发,有两个条件,理论算法的突破,计算能力的提升,HPC,是深度学习的引擎,深度学习对计算的依赖,人工智能每一次沉寂后的爆发,有两个条件深度学习对计算的依赖,nVidia Tesla GPU,21,nVidia Tesla GPU21,GPU,的发展趋势,22,GPU的发展趋势22,GPU,产品路线,23,GPU产品路线23,GPU,市场区分,GPU市场区分,计算专用,GPU,可选型号,特性,Tesla M40,Tesla K80,Tesla K40,GPU,数量,类型,GM200,2,Kepler GK210,1,个,GK110,双精,浮点峰值,-,2.91 T(,提速,),1.87,T(,基础,),1.66 T(,提速,),1.43 T,(,基础,),单,精,浮点峰值,7 T,8.74 T(,提速,),5.6 T,5 T,(,基础,),4.29 Tflops,存储器带宽,(ECC,关闭,),288 GB/s,480 GB/s,288 GB/s,存储器容量,(GDDR5),12GB,24GB(2,12GB),12 GB,CUDA,核心,数,3072,4992,2880,计算专用GPU可选型号特性Tesla M40Tesla K8,主流,GPU,产品对比,26,主流GPU产品对比26,主流,GPU,产品对比,27,主流GPU产品对比27,GPU Boost,技术,28,GPU Boost 技术28,K80,性能提升,29,K80性能提升29,M40 GPU,加速特性,M40 GPU加速特性,GPU,与,CPU,连接,通过,PCIe,与,CPU,连接,最大理论带宽,8GB/s(gen2.0),、,16GB/s(gen3.0),CPU,称为主机,(host),显卡,(GPU),称为设备,(device),31,GPU与CPU连接通过PCIe与CPU连接,最大理论带宽8,最优连接数量:,4,32,最优连接数量:432,目前的,GPU,使用方案,33,目前的GPU使用方案33,CPU,困
展开阅读全文