资源描述
计算机科学前沿技术FrontierTechnologiesinComputerScience,知识框架,第1章概述第2章计算机硬件的发展第3章高性能计算第4章现代操作系统第5章计算机网络新技术第6章数据库技术的发展第7章数据挖掘及其应用,第8章人工智能前沿第9章搜索引擎技术第10章集体智慧与Web2.0第11章云计算第12章物联网技术第13章服务科学与服务计算第14章智慧地球,2,.,第1章概述,在1895年出版的Darwin(达尔文)名著物种起源(TheOriginofSpecies)第一版扉页上写道:“作为生物进化论的完整理论体系,物种起源主要讨论两个问题:一个是形形色色的生命是否由进化而来,二是进化的主要机理是什么”。达尔文对第一个问题的回答是肯定的,对第二个问题的回答是“自然选择”。,CharlesDarwin,知识概要,计算机科学面临的问题计算机学科概述计算机学科的特点基本学科能力计算机学科发展和分支学科的划分计算机科学与其他学科之间的关系计算机科学发展的趋势,六大科学理论的突破,量子力学相对论宇宙大爆炸模型DNA双螺旋结构板块构造理论计算机科学,计算机科学是现代科学体系的主要基石之一,21世纪计算机科学和信息技术发展的新取向,更加重视技术的多样性、开放性和个性化更加重视计算机技术惠及大众更加重视生态和环境影响更加重视医学及与人类健康有关的科学技术将更加重视计算机科学的交叉研究更加重视与人文艺术的结合更加重视计算机科学与信息技术伦理道德方面的研究和对社会作用的法制化管理与监督,计算机科学(ComputerScience),计算机科学与技术学科,简称计算机科学ACM/IEEE-CS的专家们认为,目前已经无法继续用计算机学科来称谓它,而改称其为计算学科(ComputingDiscipline),计算机科学(ComputerScience),Wikipedia:与计算相关的多种学科的集合,包括理论和实际两方面:涉及信息和计算的理论基础、语言理论、算法分析和开发、计算系统的实现、计算机图形学、数据库、数据通信等。美国的网络和信息技术研究与发展国家办公室:计算系统和计算的语义研究。美国计算机学会(ACM):计算机和算法过程的研究,包括它们的原理、它们的硬件和软件设计、它们的应用以及它们对社会的影响。,计算机科学怎样成为一种科学?,1.1计算机科学面临的问题,计算机科学教育缺乏创新,计算机课程体系的陈旧针对学生特别是本科学生的培养上,充分强调以兴趣为主大学提供的是一种机会,让学生自己做真正喜欢的事情从狭义工具论到计算思维的转变计算机和信息科技的普及实际上是在全社会传播一种计算思维计算思维是一种普适的思维,是每个人的基本技能计算机科学人才的匮乏企业、政府等部门都需要计算机人才德智体合格,在团队精神、敬业态度、工作能力等方面都能胜任,计算思维,计算思维强调一切皆可计算,从物理世界到人类社会模拟,从人类社会再到智能活动,都可认为是计算的某种形式。计算思维是概念化思维,是人的思维,是数学和工程互补融合的思维,是面向所有人的思维。,1.2计算机科学概述,计算机学科的特点基本学科能力计算机学科发展和分支学科的划分计算机科学与其他学科之间的关系,1.2.1计算机学科的特点,根本问题NicklausWirth:在较高的认识层次上,硬件和软件是一样的。计算机学科的根本问题:什么能、且如何被有效地自动计算。基本特征计算机学科具有“理论、抽象、设计”三个学科形态,1.2.2基本学科能力,计算思维能力算法设计与分析能力程序设计与实现能力系统分析、开发与应用能力,1.2.3计算机学科发展和分支学科的划分,计算机科学(ComputerScience)计算机工程(ComputerEngineering)软件工程(SoftwareEngineering)信息技术(InformationTechnology)信息系统(InformationSystem),1计算机科学(ComputerScience),计算机科学研究的范围很广,从理论和算法基础到机器人开发、计算机视觉、智能系统、生物信息等。主要包括:寻找求解计算问题的有效方法构建使用计算机的新方法软件的设计与实现,2计算机工程(ComputerEngineering),设计和构建计算机系统和基于计算机的系统,包括研究硬件、软件、通信以及它们之间的交互。学科内容集中在传统的电子工程、数学等相关领域的理论、原理和实践。强调的是硬件而不是软件,而且具有很强的工程特性。,3软件工程(SoftwareEngineering),软件工程的主要目标是开发系统模型和按时并在有限预算下生产高质量软件的可靠技术。软件工程寻找计算机科学中科学与工程原理的结合,探讨以工程的规范有效地开发和管理软件系统。,4信息技术(InformationTechnology),信息技术主要用于管理和处理信息所采用的各种技术的总称。它主要是应用计算机科学和通信技术来设计、开发、安装和实施信息系统及应用软件。与信息系统学科的重点在于“信息”相对,信息技术学科的重点在于“技术”。,5信息系统(InformationSystem),信息系统学科可以理解为是基于技术的商务开发该学科强调信息技术中的“信息”,而将“技术”看成是产生、处理和分发所需的工具。他们面对的信息系统一般都是庞大和复杂的,既要懂技术,又要明白组织因素,知道如何有效地利用这类系统。,1.3计算机科学发展的趋势,“高”:性能越来越高,速度越来越快提高器件速度并行处理“广”:计算机的无处不在网络化与向各个领域的渗透普适计算(PervasiveComputing)“深”:信息的智能化发展,第2章计算机硬件的发展,知识概要,计算机发展的历史回顾我国计算机发展史新型计算机的发展CPU和GPU的发展,1计算机发展的历史回顾,早期计算机:机械式计算工具、机电式计算机,1计算机发展的历史回顾,电子管、晶体管和集成电路电子计算机的诞生,现代计算机发展历程第一代电子管计算机(19451956)第二代晶体管计算机(19561963)第三代集成电路计算机(19631971)第四代大规模集成电路计算机(1971至今),1计算机发展的历史回顾,2我国计算机发展史,第一代电子管计算机研制(19581964)第二代晶体管计算机研制(19651972),2我国计算机发展史,第三代中小规模集成电路计算机研制(197320世纪80年代初)第四代超大规模集成电路计算机研制(80年代中期至今),3新型计算机的发展,量子计算机,纳米计算机,DNA计算机光计算机,4CPU和GPU的发展,CPU的发展Intel4004和8080Intel8086、Intel80286、Intel80386、Intel80486IntelPentiumIntelPentiumMMXIntelPentiumProIntelPentiumIIIntelCeleron(赛扬)IntelPentiumIIIIntelPentiumIV双核处理器,多核计算的发展趋势多核技术的发展-多核上将集成更多结构简单、低功耗的核心。-异构多核是一个重要的方向。-多核上应用可重构技术-多核的功率和热管理-片上多核处理器时代的到来多核计算的发展,4CPU和GPU的发展,GPU的发展GPU简介-GraphicProcessingUnit,中文翻译为“图形处理器”-GPU是显示卡的“心脏”,也就相当于CPU在电脑中的作用-20世纪60-70年代,受硬件条件的限制,图形显示器只是计算机输出的一种工具-20世纪80年代初期,出现GE(GeometryEngine)为标志的图形处理器-20世纪90年代,NVIDIA进入个人电脑3D市场,4CPU和GPU的发展,GPU的发展NVIDIAGPU的发展GPU通用计算,GPU结构(左)与CPU结构(右)的对比,4CPU和GPU的发展,CPU和GPU的融合-Intel推出了在单芯片上集成X86CPU和DirectX引擎的Fusion系列处理器,AMD称这种融合了传统CPU和GPU功能的处理器为APU-AMD第一款FusionAPU系列处理器是Llano处理器,4CPU和GPU的发展,第3章高性能计算,36,.,第3章高性能计算,高性能计算概述世界各地超级计算机中心的发展概况高性能计算机的发展高性能计算机关键技术与挑战推荐阅读,1高性能计算概述,什么是高性能计算-高性能计算(HighPerformanceComputing)是计算机科学的一个分支,研究并行算法和开发并行软件,致力于研制高性能计算机(HighPerformanceComputer)-高性能计算技术主要是指从体系结构、并行算法和软件开发等方面研究开发高性能计算系统的技术,发达国家在高性能计算方面的发展-“战略计算机计划”-“高性能计算和通信(HPCC)”-“先进模拟和计算(ASC)”,1高性能计算概述,我国高性能计算的发展,“天河一号”由国防科技大学于2009年10月研制推出,目在国家级超级计算天津中心投入运营,为天津市乃至环渤海地区的生物制药、新能源新材料、航空航天装备研制等新兴产业服务。曙光“星云”曙光“星云(Nebulae)”高性能系统,是我国自主研发的首款实测性能超千万亿次超级高性能计算机,该系统于2011年底落户深圳,为我国华南、港澳乃至全国用户提供计算和信息服务。,2世界各地超级计算中心的发展概况,美国国家超级计算应用中心日本东京工业大学全球科学信息与计算中心德国Jlich超级计算中心英国Edinburgh大学超级计算中心上海超级计算中心中国科学院超级计算中心,3高性能计算机的发展,高性能计算机的发展过程1976年、1982年,CrayResearchInc分别推出Cray-1型的单向量计算机,其速度仅为133MFlops,以及行向量处理CrayX-MP机型,其速度为941MFlops,处理器数是4个。1988年,JohnL.Gustafson(古斯塔夫森)在CommunicationsoftheACM(ACM通讯)上发表了一个加速比公式:s=f+p(1f)1993年克雷公司推出的CrayT3D,其峰值速度达21.4GFlops1997年,Intel公司推出世界上第一台万亿次(TeraFlops)机器ASCIRed,其速度为1.068TFlops2002年,日本NEC公司推出“地球模拟器”2008年,在高效能理念的推动下,IBM公司研制了“走鹃”,其处理器数为122400个,功耗为2.346MW,采用异构集群的系统结构,运行速度突破了PetaFLOPS大关,达到1.026PFlops。,千万亿(1015)次系统研发1996年,每秒万亿次运算能力的超级计算机诞生,在计算机发展的历史上建立了新的里程碑超级计算需求根据用途大致可分为能力计算(CapabilityComputing)和容量计算(CapacityComputing)两类千万亿次超级计算机的主要应用领域包括生物医学、航空航天制造、气候和环境、核能、纳米技术、国防和国家安全艾级超级计算机的机遇与挑战,美洲豹(Jaguar)超级计算机,艾级超级计算机的概念,4高性能计算机关键技术与挑战,高性能计算机关键技术体系结构:商用混合式处理器+商用高性能互连网络相结合的结构(“走鹃”)、通用CPU+定制多套互连网络系统的结构(蓝色基因)、商用高性能处理器+定制高性能互连网络的结构+非一致性存储访问体系结构(CRAYXT3)等等。微处理器:Intel的Nehalem、AMD的皓龙(Opteron);基于单指令多数据(SIMD)的分布存储多核结构,如IBMCell;探索型多核结构,具体实例有斯坦福大学的流处理器(StanfordImagine)和麻省理工学院的RAW芯片;光互连:具有高带宽、低损耗、无串扰和匹配及电磁兼容等特点软件技术:操作系统方面的热点技术包括虚拟机技术(VMWARE、VPC机等)、自治技术(Self-configuring、Self-healing、Self-optimizing和Self-protecting)等;更深的存储层次、多核/多线程微处理器编译技术、流处理技术等纳米技术:高密度、低功耗、适应量子效应,超级计算机系统的挑战体系结构的挑战大量应用对超级计算机的计算能力、数据访问能力、数据存储能力提出了更高性能的要求存储器墙(Memorywall)和编程墙(Programmingwall)是超级计算中两个非常具有挑战性的问题系统规模和能耗的挑战:将规模和功耗纳入整体设计的考虑范围更快速的算法挑战:千万亿次计算系统需要并行度和并行效率更高的算法更高效能的挑战:更加关注于系统的平衡设计生态环境的挑战:任何新的重大创新如何融入这样的生态环境,都需要技术、人才、资本的巨大支撑。,4高性能计算机关键技术与挑战,超级计算机发展的技术路线可重构计算结构系统的主要逻辑通过重构机制控制,在一定范围内调整变化,以提高不同应用程序核心算法的运行效率流式结构能够针对某些类型算法获得高计算/通信率,并且计算速度高、能耗低存储器内置处理器PIM将算法逻辑单元与存储器相融合使逻辑存储器访问紧密耦合专用器件结构利用超高速硬件技术提供更高的逻辑密度,保证单元面积提供更高的性能和更低的计算能耗。混合异构结构利用现有的高性能计算机资源作为节点互连构成的集成计算机系统,4高性能计算机关键技术与挑战,第4章现代操作系统,1946年2月14日世界上第一台电子计算机ENIAC(埃尼阿克)在美国宾夕法尼亚州立大学诞生20世纪50年代中期,在美国通用汽车研究实验室诞生了世界上第一个操作系统20世纪60年代末期,在兼容分时系统的基础上,美国的麻省理工学院、贝尔实验室和通用电气公司联合开发出了称为多路信息和计算系统(MULTiplexedInformationandComputingSystem,Multics)的操作系统20世纪70年代初期,KenThompson(汤普森)和DennisRitchie(里奇)开发出了UNIX操作系统,并因此获得1983年图灵奖,1操作系统的历史,2现代操作系统的发展,现代操作系统的新特征:网络化和多媒体化现代操作系统发展的重要趋势:并发性(采用多线程)和可靠性(采用微内核结构减小规模)桌面操作系统的特点:桌面系统安全性受到高度重视,特别是通过与可信平台模块(TrustedPlatformModule,TPM)等硬件安全技术的结合,使得桌面安全性和可信性得到改善。,满足新的计算模式将成为下一代桌面系统设计的关键,例如手机操作系统、云终端操作系统桌面操作系统分化出不同的功能,三维桌面,计算机系统组成:一个计算机系统通常由硬件、操作系统、应用软件和用户四个部分组成计算模式:多处理器计算基于互联网和Web的计算嵌入式计算虚拟化计算所谓虚拟化,是通过硬件和操作系统的中间层虚拟机监控层实现计算资源的管理和再分配,使资源利用率实现最大化。,互联网和Web的计算的发展及Web应用的典型结构,2现代操作系统的发展,2现代操作系统的关键技术,微内核操作系统内核通常是操作系统中最核心的部分,管理着所有的系统资源,对于系统的设备拥有完全的访问权,通常运行于特权模式具有微内核结构的现代操作系统拥有以下优点:(1)可伸缩性好,能适应硬件更新和应用变化(2)可移植性好,所有与具体机器特征相关的代码,全部隔离在微内核中(3)实时性好,微内核可以更有效地支持实时处理(4)安全可靠性高,微内核将安全性作为系统内部特性进行设计,对外仅使用少量应用编程接口(5)支持分布式系统,支持多处理器的体系结构和高度并行的应用程序(6)真正面向对象的操作系统,能显著减小系统开销,提高系统的正确性、可靠性和易扩展性,2现代操作系统的关键技术,嵌入式操作系统嵌入式系统是以应用为中心,软硬件可裁减的,适用于对功能、可靠性、成本、体积和功耗等综合性要求严格的专用计算机系统具有软件代码小、自动化程度高和响应速度快等特点,特别适合于要求实时和多任务的体系嵌入式操作系统是嵌入式系统极为重要的组成部分,通常包括与硬件相关的底层驱动软件、系统内核、设备驱动接口、通信协议、图形界面和标准化浏览器等。商用嵌入式系统和专用操作系统:WinCE、VxWorksSymbianOS、AndroidOS,分布式操作系统网络操作系统:UNIX和WindowsNT。具有网络功能,可以用来访问远程资源。特点:运行于其上的节点能独立地管理自己的进程资源用户能够可扩展操作系统可扩展操作系统所谓的可扩展操作系统,即利用微内核技术,使操作系统在保持核心功能的基础上能够灵活地结合各种服务及应用这种外延和扩展不仅体现在用户应用层,还体现在硬件层,2现代操作系统的关键技术,多处理机并行操作系统多处理机并行操作系统新特征:(1)并行性,即增强对程序并行执行的支持。(2)分布性,即支持对分布的任务、资源的管理与控制。(3)通信及其同步性,即在不同处理机上运行的不同进程之间实现同步和通信,以共享资源和相互合作,支持程序的并行执行,以改善系统的性能。(4)可重构性,为了提高系统的可靠性,当系统中某个处理机或存储模块等资源发生故障时,系统能够自动切除故障资源,换上备份资源,并对系统进行重构,以保证其能继续工作。并行操作系统版本:前SUN公司的Solaris、美国ATscienceandtechnologyareessentialtoimprovingpublichealthandwelfareandtoinformsustainability;andthescientificcommunityhasbeencriticizedfornotbeingsufficientlyaccountableandtransparent.Datacollection,creation,andaccessarecentraltoalloftheseissues.Science,11February,2011,知识概要,数据库的发展史-数据管理的诞生-关系数据库的由来-结构化查询语言-面向对象数据库-数据管理的变革-数据挖掘和商务智能数据管理新技术-未来全球和个人信息的管理-数据是未来计算的核心,知识概要,万维网数据库技术-数据库和万维网信息检索的融合-XML数据的管理数据空间:数据管理新概念-数据空间系统及其特征-数据空间面临的挑战小结,三位图灵奖得主,三位图灵奖得主C.W.Bachman(左)-关系数据库之父E.F.Codd(中)-关系模型研究功臣J.Gray(右)-开创性的数据库研究,数据库类型,网状数据库(Networkdatabase)层次数据库(Hierarchicaldatabase)关系数据库(Relationaldatabase),关系模型,1970年,IBM的研究员E.F.Codd博士提出了关系模型的概念,关系数据库(左)和IBM的SystemR(右),结构化查询语言,1974年,IBM的RayBoyce和DonChamberlin将Codd关系数据库的12条准则的数学定义以简单的关键字语法表现出来,里程碑式地提出了SQL(StructuredQueryLanguage)语言。1976年IBM的Codd发表了一篇里程碑的论文“R系统:数据库关系理论”,Oracle的创始人LarryEllison在此基础上他们就开发了Oracle1.0。图为LarryEllison,数据管理的变革,决策支持系统(左)和数据仓库(右)20世纪60年代后期,决策支持系统(DecisionSupportSystem,DSS),其目的是让管理者在决策过程中更有效地利用数据信息。1988年,IBM公司的研究员BarryDevlin和PaulMurphy创造性的提出了一个新的术语数据仓库(DataWarehouse),数据挖掘和商务智能,数据挖掘是指通过分析大量的数据来揭示数据之间隐藏的关系、模式和趋势,从而为决策者提供新的知识。商务智能(BusinessIntelligent,BI)指的是一系列以数据为支持、辅助商业决策的技术和方法。,数据挖掘商务智能,现代数据管理及特点,第一个特点:海量第二个特点:共享第三个特点:多样化,数据管理:指对数据进行分类、组织、编码、存储、检索和维护,万维网数据库技术,从万维网数据的存在形态上来讲,万维网数据分为三种类型:静态的HTML数据;通过开放查询接口获取的动态HTML数据;已经成为互联网环境中信息的表示和交换标准的XML数据。XML(eXtensiveMarkupLanguage)数据目前已经成为互联网环境中的数据表示和交换的标准。相对于静态的HTML网页,XML数据中结构信息更加丰富,能够允许用户表达更加准确的查询需求。,数据库和万维网信息检索的融合,随着半结构化数据XML作为网上数据表示和交换标准的流行,以及结构化数据(例如关系数据)所得到的广泛的应用与普及,人们期盼着也能像使用搜索引擎那样用关键字来检索这些半结构化数据和结构化数据。,XML表示的数据类型以及XML数据模型,XML数据的管理,XML查询处理由于XML是半结构化的,因此XML上的查询包含两个方面,分别是结构上的查询和内容上的查询。数据的XML发布研究关系数据和XML数据之间的转换方法,以及如何实现各类异构关系数据源基于XML的发布,已成为当前国际数据管理领域重要的研究方向。,数据空间:数据管理新概念,数据空间中包含一个组织或个人的一切数据。它的数据可能来自多个不同但又相互关联的数据源,具有各不相同的格式数据空间技术通过建立有效的集成机制、完善的扩展机制以及合理的数据模型来实现对多种数据类型的统一管理,数据空间技术,数据空间系统及其特征,对于任意一组数据,只要本质上反应的是同一个实体,它们就属于同一数据空间。其特点如下:数据多样性数据源不确定性数据共存独立性持续演化性,数据空间面临的挑战,数据模型一个好的模型需要考虑很多问题,包括模型能够以统一的方式描述数据源中所有的数据,需要建立一种能够有效描述所有复杂多样的联系的模型,数据模型要能够支持一套强大高效的查询机制,以及模型必须具有良好的可扩展性。查询处理由于数据空间中数据的多样性,并要对取到查询结果进行排序,还要包含这些结果的数据源信息,往往用户的查询很可能是一个渐进的探索式的过程。数据扩展数据的范围从局部扩展到全局,而所有局部数据不可能都符合全局标准,所以产生了数据扩展的需要,推荐阅读,C.J.Date.AnIntroductiontoDatabaseSystems(EighthEdition).AddisonWesley,2003.JenniferWidom,JeffreyD.Ullman,HectorGarcia-Molina.DatabaseSystems:TheCompleteBook(SecondEdition).PrenticeHall,2008.王海勋.ACMSIGMOD数据管理国际会议.中国计算机学会通讯,2011,7(9):62-64.CliffordLynch.Howdoyourdatagrow?Nature,2008,September,455,2829.DealingwithData.Science,2011,February,331.http:/www.sciencemag.orgTongheyetc.TheFourthParadigm:Data-IntensiveScientificDiscovery.Redmond,Washington.,“生命的本质在于创新”。当人反省内在生命的时候,就会发现它是动态的、展开的、希望创新的,再由此推展到整个宇宙。整个宇宙就是一个“生命冲力”,通过某种很大的力量在运转,且不断地自我呈现。而人是惟一能知道这个力量并与之呼应的,因为人的内心能够有这种生命冲力的体会,希望能够把它们对照起来。(柏格森,HenriBergson,1859-1941),第7章数据挖掘及其应用,Informationisnotknowledge,Knowledgeisnotwisdom,Wisdomisnottruth,Truthisnotbeauty,Beautyisnotlove,Loveisnotmusic,andMusicisTHEBEST.FrankVincentZappaWhereistheLifewehavelostinliving?Whereisthewisdomwehavelostinknowledge?Whereistheknowledgewehavelostininformation?Whereistheinformationwehavelostindata?T.S.Eliot,TheRock,1934,知识概要,数据挖掘技术的由来数据挖掘的定义数据挖掘的研究内容数据挖掘的应用小结,数据挖掘技术的由来,数据挖掘的进化历程,典型的数据挖掘系统,数据挖掘的发展历程,第一阶段:结构化数据挖掘:在初期,数据挖掘是面向结构化数据的,主要是指在关系数据库上进行的挖掘。第二阶段:复杂类型数据挖掘第三阶段:进一步产生了一些挖掘系统的研究,包括对动态、在线数据挖掘系统、分布式挖掘系统、并行挖掘系统,以及流数据、混合数据和不完备数据挖掘系统等的研究第四阶段:开拓基于知识库的知识发现的研究方向。,数据挖掘的目标,数据挖掘的定义,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。,基于数据的决策,数据挖掘与其他分析方法的区别,数据挖掘的交叉学科基础,数据挖掘的研究内容,数据挖掘所发现的知识最常见的有以下:广义知识(Generalization)关联知识(Association)分类知识(ClassificationClustering)预测型知识(Prediction)偏差型知识(Deviation),数据挖掘领域十大经典算法,国际权威的学术组织评选出了数据挖掘领域的十大经典算法:C4.5k-MeansSVMAprioriEMPageRankAdaBoostkNNNaiveBayesCART,数据挖掘的流程,数据挖掘的基本过程和主要步骤,数据挖掘的研究热点,1商业应用2网站的数据挖掘3Web挖掘和文本挖掘4医学研究5生物信息或基因的数据挖掘,数据挖掘的应用,在商业、竞技、经济等系统中的应用,第8章人工智能前沿,PrincipiaMathematica,VolumeI,page360.,知识概要,人工智能概述人工智能的研究分支机器数学知识工程和专家系统智能器官和模式识别机器学习自然语言处理人工智能前沿的探索,人工智能的诞生,五位达特茅斯会议的主要参与人员在人工智能60周年纪念会上合影(从左到右依次为More、McCarthy、Minsky、Selfridge和Solomonoff),介绍人工智能,不能不说起Turing(图灵)。英国著名学者A.Turing(阿兰图灵)不仅以“纸上下棋机”率先探讨了下棋与机器智能的联系,他还是举世公认的“人工智能之父”。,人工智能的研究分支,机器数学,四色定理,哥德巴赫猜想,数学家Russell,名著数学原理,智能器官和模式识别,智能感官,人脸识别,语音识别,自然语言处理,自然语言理解又称自然语言处理(NLP),其任务是研制表示语言能力和语言应用的模型,并建立计算框架来实现这些模型,再根据这些模型设计各种实用系统,探讨这些实用系统的评测技术。,第五代计算机,蚁群算法和粒子群算法,日本人宣称将以Prolog为机器的语言,其应用程序将达到知识表达级,具有听觉、视觉甚至味觉功能,能够听懂人说话,自己也能说话,能认识不同的物体,看懂图形和文字。人们不再需要为它编写程序指令,只需要口述命令,它自动推理并完成工作任务。这种新型的机器,也就是当时人们常挂在嘴边的“第五代计算机”。,大脑复制,人类的大脑不啻是世界上最复杂、最高级、最有效、储存容量最大的超级计算机。,游戏智能,人工智能在游戏中的目标主要有五个:为玩家提供适合的挑战;使玩家处于亢奋状态;提供不可预知性结果;帮助完成游戏的故事情节;创造一个生动的世界。,星际争霸中的路径选择,A*寻路算法一直以来被游戏界认为是最好的寻路算法之一,因而被大量应用。由于A*算法是按照寻找最低耗费的路径来设计,A*会找到最短,最直接的路径,推荐阅读,Saygin,A.P.,Cicekli,I.andAkman,V.TuringTest:50YearsLater,MindsandMachines.2000,10(4):463-518.Fei-YueWang.AIsHallofFame.IntelligentSystems,2011,26(4):5-15.冯诺伊曼著.计算机与人脑.北京大学出版社,2010.StuartJ.Russell,PeterNorvig.ArtificialIntelligence:AModernApproach(3rdEdition)(影印版).清华大学出版社,2011.GeorgeF.Luger.ArtificialIntelligence:StructuresandStrategiesforComplexProblemSolving(6thEdition)(影印版).机械工业出版社,2009.,“乾以易和,坤以间能。易则易知,简则易从。易知则有亲,易从则有功。有亲则可久,有功则可大。可久则贤人之德,可大则贤人之业。易简而天下之理得矣!”“一阴一阳之谓道。”易传系辞上,第9章搜索引擎技术,有人说三个苹果改变了世界,一个诱惑了夏娃,一个砸醒了牛顿,一个握在乔布斯手中。这三个苹果分别象征着欲望、知识和激情,或者说分别代表着诱惑力、求知力和创新力。,互联网搜索结果,知识概要,互联网搜索引擎互联网搜索引擎的发展现状互联网搜索引擎的体系结构搜索引擎面临的挑战Web的发展搜索需求的发展网络的发展来自非技术方面的挑战,知识概要(续),搜索引擎应对方略多元化搜索质量提高搜索能力加强其他搜索引擎相关研究组国外搜索引擎研究组国内搜索引擎研究组,互联网信息海洋,互联网上的信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎则为用户绘制一幅一目了然的信息地图,供用户随时查阅。,搜索引擎技术,值得中国人骄傲的是,中国在搜索引擎技术上处于世界领先地位。全世界只有四个国家拥有搜索引擎关键技术,另三个国家是美国、俄罗斯和韩国。根据中科院搜索引擎经济拉动作用研究的调研报告显示,搜索引擎已超过汽车、金融和房地产,成为对实体经济最强有力的拉动者。,互联网搜索引擎的发展现状,搜索引擎已逐渐成为网民使用最多的互联网服务,取代门户网站成为真正意义上的互联网入口。,互联网搜索引擎的发展现状,搜索引擎伴随着互联网的发展而发展.,互联网搜索引擎的发展现状,第一代搜索引擎出现于1994年前后,以Infoseek、AltaVista和Yahoo!为代表.研究表明,1999年8月全球11个主要的搜索引擎中,每个搜索引擎仅能搜索到互联网上全部页面的16%,甚至更低。上世纪末、本世纪初,第二代搜索引擎出现在互联网上.使用一种叫做“超链分析”的技术。这个技术的发明人是百度创始人李彦宏。本质上是一种“投票”机制,一个链接可以看作一个网页对另一个网页的投票,票数决定排序。随后,Google借鉴了“超链分析”技术并发明了PageRank,其核心思想是根据页面链接关系,计算页面本身的重要性。第三代搜索引擎技术近年来得到蓬勃发展,以开放平台为载体,以语义搜索、推荐搜索、社区搜索为基本特征.,互联网搜索引擎的体系结构,从用户在搜索框输入查询,到得到搜索引擎的返回结果,所需时间在亚秒以内,其背后过程和结构却很复杂。一个互联网搜索引擎系统主要由网页抓取、网页内容分析和索引、连接结构分析、检索服务四个子系统组成。,互联网搜索引擎的体系结构,搜索引擎所采用的核心技术涉及计算机科学技术的许多前沿领域,如信息检索、高性能分布式网络计算、数据挖掘、自然语言处理、机器学习、超大规模数据分布式存储和处理、用户行为分析以及人机界面技术。近年来,热门研究课题包括:网页抓取、内容索引、查询检索、超链分析、相关性评估、作弊网页识别、网页文本挖掘、信息检索中的语言模型、命名实体识别和基于社区的搜索引擎等。,互联网搜索引擎的工作原理,搜集信息整理信息接受查询,互联网搜索引擎的工作原理,搜集信息搜索引擎利用称为网络蜘蛛的自动搜索机器人程序来连上每一个网页上的超链接。理论上,若网页上有适当的超链接,机器人便可以遍历绝大部分网页。整理信息搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。接受查询搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。,搜索引擎面临的挑战,一个实用搜索引擎的服务质量和技术,可以从“准、全、新、快”四个方面来衡量准:搜索结果应该与用户查询词高度相关,具有较高的点击率全:搜索结果应该尽可能是整个互联网中最相关的结果新:搜索引擎索引库要尽可能地反映当前互联网的现状快:搜索引擎应该在亚秒时间内返回搜索结果,Web信息发展的挑战,信息仍在大量增加信息更新加快信息表现形式多种多样SEO正在蓬勃发展,搜索需求发展的挑战,更准、更全、更新、更快使用更加方便和容易搜索个性化,网络发展的挑战,网络终端形式更加丰富网络速度的提高无线网络的发展,非技术方面的挑战,知识产权问题所在国法律网络诚信问题,搜索引擎应对方略,多元化通用系统:其定位是一个好的推荐系统专业系统:要求非常精准,有专业特色搜索质量提高过滤垃圾页面提高查询准确度,搜索引擎应对方略,搜索能力加强对多媒体搜索的支持对DeepWeb的搜索ArchiveSearch搜索引擎速度的提高其他搜索个性化桌面搜索移动搜索,搜索引擎相关研究组,国外搜索引擎研究组GoogleMicrosoftYahoo!Stanford大学(StandfordInfoLab,http:/infolab.stanford.edu/)CarriageMellon大学(CMULTI,http:/www.lti.cs.cmu.edu/)MIT(麻省理工学院)(MassachusettsCIIR,http:/ciir.cs.umass.edu/),搜索引擎相关研究组,国内搜索引擎研究组科研机构清华大学智能技术与系统国家重点实验室(,第10章集体智慧与Web2.0,本质上,Web2.0可以被分为两个不同的部分:其一是大量丰富的交互体验,这使得网页摆脱了静态页面,而看起来更像是一个应用。其二则是它的社会化属性,这使得将集体智慧汇集在一起成为可能。,DanielNations,知识概要,集体智慧导言什么是集体智慧集体智慧与Web2.0集体智慧在Web领域的应用集体智慧与机器学习搜索排名搜索引擎与信息检索基于内容的度量方法基于链接的度量方法,知识概要(续),推荐系统推荐系统的诞生和现状推荐系统的经典案例Netflix设计推荐系统的基本方法集体智慧中的常用算法贝叶斯分类器决策树分类器神经网络k-最近邻优化技术,集体智慧导言,人们使用集体智慧(CollectiveIntelligence)这一术语已经有十多年之久,随着新型通信技术的出现,尤其是进入Web时代以后,这一术语也变得日趋的流行和重要。,什么是集体智慧,纵观当今的Web领域,当我们讨论集体智慧这一概念的应用时,通常是指把一部分人的行为、偏好或思想数据搜集起来并加以分析,从而寻找新的发现。在维基百科(Wikipedia)上,集体智慧被定义成为是一种共享的或者群体的智能,它是从许多个体的合作与竞争中涌现出来的。,什么是集体智慧,对于集体智慧的研究,实际上可以被认为是一个属于生物学、社会学、商业、计算机科学、大众传媒和大众行为的多学科课题,其研究的领域从夸克到细菌、植物、动物,直至人类社会各个层次中出现的群体行为。,集体智慧与Web2.0,Web2.0是由计算机领域著名的出版公司OReilly的首席执行官TimOReilly在2003年提出的一个概念。Web2.0指的是基于Web的下一代社区和托管服务,比如社会化网络、维基百科、大众分类等等,它能够帮助互联网用户更好的协作和分享。,集体智慧与Web2.0,Web2.0预示着技术人员与最终用户使用互联网平台方式的变化大量的互联网用户需要更好用、更个性化、更多样的内容、服务和应用,这就是互联网发展的推动力围绕着如何利用这样大规模的用户群体自己来创造、贡献和共享价值,人们又开始思考和探索如何激活网络效应,利用大规模群体智慧的参与架构与社会计算模式在这一过程中,集体智慧的相关理论与技术扮演了十分重要的角色,集体智慧在Web领域的应用,维基百科Google搜索引擎其他应用,集体智慧与机器学习,集体智慧的相关理论与技术涉及到了大量的机器学习理论将一组数据传递给算法,并由算法推断出与这些数据的属性相关的信息借助这些信息,算法就能够预测出未来有可能会出现的其他数据,搜索引擎与信息检索,搜索引擎技术是集体智慧在Web领域里的一个重要应用,主要包含搜集文档、建立索引、结果排序等全文搜索算法是最重要的集体智慧算法之一,事实证明,人们在这一领域里所产生的新想法已经创造出了大量的财富信息检索是研究对大规模信息进行快速、准确而全面地获取、组织、挖掘和提供访问的一门学科,其目标是要从大规模文档集合中返回满足用户需求的文档子集信息检索涉及自然语言处理、机器学习、数据挖掘、并行分布式处理等多个领域的相关理论和技术,基于内容的度量方法,单词频度文档位置单词距离,基于链接的度量方法,到目前为止,我们对评价度量的讨论都是基于网页内容本身对搜索结果加以改善,我们可以考查外界就该网页所提供的信息尤其是谁链向了该网页基于网页链接的度量方法,最为简单的做法,是针对每个网页统计其链接的数目,并将链接总数作为针对该网页的度量基于链接的度量方法中最著名的算法是PageRank算法,基于链接的度量方法,通过一个具体的例子来看一看PageRank的计算方法图中,网页B、C和D均指向A,它们的PageRank值已经计算得出。B还指向另外三个网页,而C则指向其他三个网页,D只指向A。为了得到A的PageRank值,我们将指向A的每个网页的PageRank值除以这些网页中的链接总数,然后乘以阻尼因子0.85,再加上一个0.15的最小值PR(A)=0.15+0.85*(PR(B)/links(B)+PR(C)/links(C)+PR(D)/links(D)=0.15+0.85*(0.5/4+0.7/5+0.2/1)=0.54525,推荐系统,全球的网络化、信息化进程深刻地改变了人类的生存方式,Internet技术的应用给人们生活和工作的各个层面带来了深刻的影响网络上的“信息过载”和“信息迷航”问题日益严重解决这些问题的关键在于将Internet从被动接受浏览者的请求转化为主动感知浏览者的信息需求,推荐系统,推荐系统中的推荐技术主要分为三类基于内容的推荐技术协作型过滤推荐技术混合推荐技术几乎所有的大型电子商务系统,如A、eBay、China-pub等,都不同程度地使用了各种形式的推荐系统各类图书馆的联机数据检索、网络信息检索、社交网络、在线信息共享社区等各种信息服务都开始应用相关的推荐算法,推荐系统,协作型过滤通常的做法是对一大群人进行搜索,并从中找出与当前人品味相近的一小群人算法会对这些人所偏爱的其他内容进行考查,并将它们组合起来构造出一个经过排名的推荐列表,推荐系统的经典案例Netflix,Netflix是美国最著名的流媒体影视播放服务商,它为全球上千万顾客提供DVD电影租赁服务和影视剧在线观看服务Netflix拥有一个自行研发的推荐系统Cinemath,设计推荐系统的基本方法,建立模型寻找相近用户欧几里德距离(Euclideandistance)评价皮尔逊(Pearson)相关度评价其他相关度评价方法为用户寻找最佳匹配为用户推荐商品,集体智慧中的常用算法,贝叶斯分类器决策树分类器神经网络k-最近邻优化技术,贝叶斯分类器,贝叶斯分类器常用于文档处理,比如垃圾邮件过滤,基于关键字的文档分类等贝叶斯分类器需要利用样本数据进行训练,每个样本包含了一个特征列表和对应的分类以文档分类为例,所谓的特征也就是文档中出现的单词一篇包含单词“java”的文档究竟是关于编程语言的,还是关于咖啡的。那么“编程语言”和“咖啡”就是两个分类,优缺点,朴素贝叶斯分类器与其他方法相比最大的优势在于,它在接受大数据量训练和查询时所具备的高速度尤其当训练量逐渐递增时更是如此在不借助任何旧的训练数据的前提下,每一组新的训练数据都有可能引起概率的变化朴素贝叶斯分类器的最大缺陷是它无法处理组合特征的情况“在线”和“药店”VS“在线药店”,决策树分类器,利用决策树进行分类非常简单,只要从树的根结点开始,对每个结点的判断条件进行检查,如果结点的判断条件满足,就走某个分支,否则,就走另一个分支,优缺点,决策树最为显著的优点在于,利用它来解释一个受训模型是非常容易的,而且算法将最为重要的判断因素都很好地安排在了靠近树的根部位置与贝叶斯分类器相比,其主要优点是它能够很容易地处理变量之间的相互影响,却不支持增量式的训练结点的数量非常庞大时,导致分类效率的降低,神经网络,神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型,优缺点,神经网络的主要优点是它能够处理复杂的非线性问题,并且能发现不同输入间的依赖关系允许增量式训练神经网络的主要缺点在于它是一种黑盒方法,k-最近邻,利用k-最近邻算法可以进行数值预测,比如针对一组给定的样本来构造价格预测模型工作原理是接受一个用以进行数值预测的数据项,然后将其与一组已经赋过值的数据项进行比较,从中找出与待预测数据项最为接近的若干项,并对其求均值以得到最终的预测结果,优缺点,能够利用复杂函数进行数值预测简单易懂k-最近邻主要的缺点在于,要求所有的训练数据都必须缺一不可,优化技术,优化不是要处理数据集,而是要尝试找到能够使成本函数的输出结果达到最小化的值优化的关键是设计成本函数成本函数接受一个经推测得到的题解,并返回一个数值结果,该值越大就表示题解的表现越差,该值越小就表示题解的表现越好优化算法利用该函数对各种题解进行检验,并从中找出最优解,考虑包含一个变量的函数,可定义为:y=1/x*sin(x)因为该函数仅有一个变量,所以从图中我们很容易就可以找到函数的最低点当面对一个带有多个变量的复杂函数时,寄希望于将其简单绘制出来以寻找最低点这样的做法是行不通的,模拟退火,模拟退火,是受物理学领域中合金冷却的启发而提出的,它以一个随机推测的题解开始,然后以此为基准,随机选择一个方向,并就近找到另一个近似解,判断其成本值,遗传算法,遗传算法是受进化理论启发而提出的它以一组被称为种群的随机题解开始种群中表现最为优异的成员即成本最低者会被选中并通过变异或特征组合(即交叉或配对)的方式加以修改我们会得到一个新的种群,称之为下一代。经过连续数代之后,题解最终将会得到相应的改善,第11章云计算,波普尔用“云”这个词来概括那些不规则的运动、看上去毫无规律可言的生物种群的行为、人的心理活动、湍流的水、难以预测的股票市场曲线等,总之这类事物有一个共同的特点,就像天边的云彩一样,变幻莫测。“钟”则象征确定性、精确、可拆解成更加细小的组成部分,这意味着严格遵从某种内在的规律,它的行为是完全可知的、可以预测的、可以掌控的。,互联网:碎片化生存,段永朝,知识概要,认识云计算云计算的定义计算模式的演进过程云计算的推动力云计算与网格计算云计算的特征和分类云计算的公共特征云计算的分类,知识概要(续),云计算主要平台剖析Amazon的EC2Google的AppEngineIBM的BlueCloud微软的Azure我国云计算产业的发展云计算技术和科研应用云计算的重要技术及其进展云计算的科研应用,认识云计算,“云计算”是近几年信息技术领域受关注较多的主题Amazon在设计和规划自身电子商务系统IT架构的时候,不得不为了应付销售峰值去购买更多的IT设备这些设备平时却处于空闲状态,认识云计算,从2004年开始,Amazon陆续推出了多种云计算服务云计算服务迈向实际应用的标志是Amazon2006年推出的简单存储服务(S3)和弹性计算云(EC2),云计算的定义,由于云计算是一个概念,而不是指某项具体的技术或标准,于是不同的人从不同的角度出发就会有不同的理解业界关于云计算定义的争论也从未停止过,云计算的定义,分析师和分析机构对云计算的理解云计算是透过互联网从集中的服务器交付个人应用(E-mail、文档处理和演示文稿)和商业应用(销售管理、客户服务和财务管理),云计算的定义,不同IT厂商对云计算的的理解IBM认为,云计算是一种计算风格,其基础是用公共或私有网络实现服务、软件及处理能力的交付Google的CEOEricEmersonSchmidt(施密特)博士认为,云计算把计算和数据分布在大量的分布式计算机上,这使计算力和存储获得了很强的可扩展能力,并方便了用户通过多种接入方式(例如计算机、手机等)方便地接入网络获得应用和服务微软认为,未来的计算模式是云端计算,而不是单纯的云计算。这里的端是指客户端,也就是说云计算一定要有客户端来配合,学术界对云计算的的理解,网格计算之父IanFoster认为,云计算是一种大规模分布式计算的模式,其推动力来自规模化所带来的经济性来自Berkeley大学的一篇技术报告则指出,云计算既是指透过互联网交付的应用,也是指在数据中心中提供这些服务的硬件和系统软件,学术界对云计算的的理解,来自Wikipedia(维基百科)上的定义基本上涵盖了各个方面的看法:云计算是一种计算模式,在这种模式下,动态可扩展而且通常是虚拟化的资源通过互联网以服务的形式提供出来IBM的朱近之在智慧的云计算一书中给出一个相对宽泛的定义:云计算是一种计算模式:把IT资源、数据和应用作为服务通过网络提供给用户,计算模式的演进过程,云计算并不是突然出现的,而是以往技术和计算模式发展和演变的一种结果,计算模式的演进过程,主机系统与集中计算1964年,世界上第一台大型主机System/360诞生,由此引发了计算机和商业领域里的一场革命大型主机的一个特点就是资源集中,计算、存储集中效用计算其目标是把服务器及存储系统打包给用户使用,按照用户实际使用的资源量对用户进行计费,计算模式的演进过程,个人计算机与桌面计算20世纪80年代,随着计算机技术的发展,计算机硬件的体积和成本都大幅度降低,使得个人拥有自己的计算机成为可能个人计算机可以完成绝大部分的个人计算需求,也叫桌面计算分布式计算分布式计算依赖于分布式系统分布式系统由通过网络连接的多台计算机组成,计算模式的演进过程,网格计算网格计算出现于20世纪90年代。伴随着互联网而迅速发展起来的、专门针对复杂科学计算的新型计算模式利用互联网把分散在不同地理位置的计算机组织成一台“虚拟的超级计算机”,其中每一台参与计算的计算机就是一个“节点”,而整个计算是由成千上万个“节点”组成的“一堆网格”,计算模式的演进过程,SaaSSaaS全称为Softwareasaservice,中文译为“软件即是服务”用户不用再购买软件,而改为向提供商租用基于Web的软件,计算模式的演进过程,云计算的出现纵观计算模式的演变历史,基本上可以总结为:集中分散集中,云计算的推动力,网络带宽的提升技术成熟度移动互联网的发展数据中心的演变经济因素,云计算与网格计算,网格计算是学术界提出的,它实际上是一个研究的课题,并不是一个商业的概念云计算从产生的那一天起就强调其商业模式,即按使用付费,这可以保证其投资能得到回报,可以作为一项
展开阅读全文