采矿与统计机器学习之未来发展TrendofBusiness课件

上传人:2127513****773577... 文档编号:252562632 上传时间:2024-11-17 格式:PPT 页数:40 大小:1.24MB
返回 下载 相关 举报
采矿与统计机器学习之未来发展TrendofBusiness课件_第1页
第1页 / 共40页
采矿与统计机器学习之未来发展TrendofBusiness课件_第2页
第2页 / 共40页
采矿与统计机器学习之未来发展TrendofBusiness课件_第3页
第3页 / 共40页
点击查看更多>>
资源描述
单击以编辑母片标题样式,单击以编辑母片,第二层,第三层,第四层,第五层,*,单击以编辑母片标题样式,单击以编辑母片,第二层,第三层,第四层,第五层,*,资料采矿与统计机器学习之未来发展,Trend of Business Intelligence&Statistical Machine Learning,谢 邦 昌,中华,资料采矿,协会,理事长,辅仁大学统计资讯学系 教授,郑宇庭,政治大学统计学系教授,资料采矿与统计机器学习之未来发展Trend of Busi,为什么要学统计,?,为什么要学统计?,会计,快快忘记,经济 经常忘记,统计 通通忘记,会计 快快忘记,老婆,:你在作什么啊?,学统计的老公,:没作什么。,老婆,:没作什么?你看着我们的结婚证书,足足有一小时了,。,老婆:你在作什么啊?,学统计的老公,:,我在寻找它的有效日期是到什么时候,学统计的老公:,大纲,数据挖掘与统计学习的过去,1.,人工智能,2.,机器学习,3.,统计学门,4.,统计学习,数据挖掘与统计学习的现今,1.,改进寻找特征的能力,2.,依赖人工的参数选择,3.,人工智能与机器学习的整合与统计修正,4.,统计学习新趋势,-,SVM,向量支持器,5.,解决现今企业的问题,-,数据仓储与数据采矿技术的重视,6.,探讨与改善人类疾病的问题,-,生物统计学,7.,数据的文字处理,-,语言意义的学习,8.,统计学近,40,年的走势,数据挖掘与统计学习的未来,1.,改善机器学习问题,2.,语言意义的学习改进,-,人类以后不需再介入,3.,人机界面,-,更进一步的计算能力,4.,我国未来的发展,-,学习再学习,大纲 数据挖掘与统计学习的过去,數據挖掘與,統計學習的過去,數據挖掘與,人工智能,统计学习,机器学习,统计学门,数据挖掘与统计学习的过去,人工智能统计学习 机器学习 数据挖掘与统计学习的过,人工智能,(AI),一个具有智慧的机器,和一位的人类,放在一个布幕里面。布幕里面的人分别和机器以及人类交谈,如果分不出哪一个是机器,哪一个是人类的话,那部机器就有人工智能了。,机器学习,把,AI,划分成,Weak AI,和,Strong AI,。,Weak AI,的可以由机器学习来代表。只要给定问题的范围,训练的数据,就可以由数据中选择特征,然后建构数据的模型,最后把这个模型当成学习的成果,拿来做预测。,人工智能(AI)机器学习,统计学门,统计学的初衷是作为政府以及管理阶层的工具,但统计背后牵涉到更多数学导向的领域。今日的世界里统计已经被使用在不仅仅是国家或政府的事务,更延伸到商业,,自然以及社会科学,医疗等甚至更多方面。,统计学习,统计学习理论是研究利用经验数据进行机器学习的一种一般理论,属于计算机科学、模式识别和应用统,计学相交叉与结合的范畴,与传统统计学理论相比有更好的实用性。,统计学门统计学习,机器学习,运用经验自动改善计算机系统性能,the computer systems that automatically improve with experience,把握普遍存在于学习之旅中的基本规律,the fundamental laws that govern all learning process.,-Tom Mitchell 2006,年,6,月,经验,理论,机器学习运用经验自动改善计算机系统性能经验理论,学习之旅,方法,:,从有限到无限,从部分到整体,选择,:,哪些或哪个关系是合适的,?,困惑,:,关系的数量是无穷多的,学习之旅 方法:从有限到无限,从部分到整体选择:哪些或哪个关,典型应用,图像识别:手写体、指纹、人像识别,语音识别:词、句、发音、身份识别,搜索引擎:,Google,,文本挖掘,信息提取,金融:投资组合和风险管理,电信:网络流量分布,数据挖掘:大规模数据的模式提取,生物医学,太空、宇宙,典型应用图像识别:手写体、指纹、人像识别,与统计机器学习的相关学科,人工智能,(Artificial Intelligence),信息论,(information theory),统计学,(Statistics),数据挖掘,(Data Mining),心理学,(,发展认知学,),(psychology),神经生物学,(Neuobiology),语言学,(Linguistics),生理学,(Physiolophy),数值最优化,(Numerical Optimization),统计机器学习,与统计机器学习的相关学科人工智能信息论统计学数据挖掘心理学(,应用举例:网上零售,McCallum et al 2005,应用举例:网上零售McCallum et al 2,统计机器学习简要历史回顾,1950s-70s,Samuels checker player,Neural networks:Perceptron,Pattern recognition,Learning in the limit theory,Minsky and Papert prove limitations of Perceptron,Symbolic concept induction,Winstons arch learner,Expert systems and the knowledge acquisition bottleneck,Quinlans ID3,Michalskis AQ and soybean diagnosis,Scientific discovery with BACON,Mathematical discovery with AM,1980s:,Advanced decision tree and rule learning,Explanation-based Learning(EBL),Learning and planning and problem solving,Cognitive architectures,Resurgence of neural networks(connectionism,backpropagation),Valiants PAC Learning Theory,Focus on experimental methodology,统计机器学习简要历史回顾1950s-70s,统计机器学习简要历史回顾,(2),1990s,Data mining,Adaptive software agents and web applications,Text learning,Reinforcement learning(RL),Inductive Logic Programming(ILP),Ensembles:Bagging,Boosting,and Stacking,Bayes Net learning,2000s-,Support vector machines,Kernel methods,Graphical models,Statistical relational learning,Transfer learning,Sequence labeling,Collective classification and structured outputs,Computer Systems Applications,Compilers,Debugging,Graphics,Security(intrusion,virus,and worm detection),Email management,Personalized assistants that learn,Learning in robotics and vision,统计机器学习简要历史回顾(2)1990s,典型问题:预测,/,分类,输出变数,预测变量,输入变量,目标,线性模型,损失函数,风险:,最优解,典型问题:预测/分类 输出变数,目前统计机器学习的几个热点问题,集成学习,(ensemble learning),Bagging;,Boosting;,模型选择,(model selection),Supervised learning:Subset selection,Lasso,Unsupervised learning:penalized clustering,主动学习,(active learning),数据流学习,(data-stream learning),目前统计机器学习的几个热点问题集成学习(ensemble l,模型选择的基本问题,当我们有很多变量,特别是当变量数可能多于样本数(存在交互作用)时,很难找到一个好的模型。,需要精练模型和自动寻找到影响最为显着的变量。,哪些交互作用应合理保留?,模型选择旨在建立模型的同时选择输入变量。,模型选择的基本问题当我们有很多变量,特别是当变量数可能多于样,应用举例,Penalized clustering,应用举例Penalized clustering,统计机器学习的进展,数据源于,MSN 2006,统计机器学习的进展数据源于MSN 2006,数据驱动的机器学习,复杂的应用呼唤新的自动学习方法,-,数据驱动的自动学习:人类很多的思考与判断看似简单,然而给出一个解决问题的明确且通用的规则或程序,却是很难的。但是如果有训练数据,则可能通过不断选择逐渐优化一个学习过程,从而提升学习能力,加速学习任务的完成,.,应用领域需要智能系统能越来越贴近使用者的个性特点,以机器学习为设计核心的软件才可能更高效率地实现服务的个性化,.,数据驱动的机器学习复杂的应用呼唤新的自动学习方法-数据驱,统计机器学习是计算机科学的重要组成部分,也是统计学的重要组成部分,统计机器学习在挑战计算机算法自我监控、自我诊断和自我修复等方面的贡献使机器学习成为计算机科学的重要组成部分。,同时,统计机器学习赋予了统计推断过程的新理念:生命不止,学习不息!,统计机器学习是计算机科学的重要组成部分,也是统计学的重要组成,“It is a capital mistake to theorize before one has data.”,Arthur Conan Doyle,的名言从,1891,年至今天仍然正确。,不可否认,在过去短短的十几年内,统计机器学习在理论和应用两个领域都取得了令人注目的成就。在通向应用的道路上,新的问题和挑战不断出现,有相当长的路要走,这既是科学规律,也是新理论和新技术孕育和诞生之旅,需要更多来自实践的共同探索与经验积累。,“It is a capital mistake to th,數據挖掘與,統計學習的現今,數據挖掘與,数据挖掘与统计学习的现今,改进寻找特征的能力,人工智能与机器学习,的整合与统计修正,统计学习新趋势,-SVM,向量支持器,依赖人工的参数选择,解决现今企业的问题,-,数据仓储与数据采矿技术的重视,探讨与改善人类疾病的问题,-,生物统计学,数据的文字处理,-,语言意义的学习,统计学近,40,年的走势,数据挖掘与统计学习的现今 改进寻找特征的能力 人工智能与机器,改进寻找特征的能力,人类目前有一些能力,如抽象化,机器还没有办法达成。抽,象化又牵涉到特征,(feature),的撷取。,依赖人工的参数选择,另外一个需要人类参与的,就是模型里面的参数。有些参数是要从数据里面学习出来。有些参数可以用人为来调整。,改进寻找特征的能力依赖人工的参数选择,人工智能与机器学习的整合与统计修正,目前机器学习的方法,除了基本的统计分析以外,尚有人工智能,的类神经网络、规则式,(rule-based),系统及应用贝式定理。,统计学习新趋势,-,SVM,向量支持器,是专门针对有限样本情况,其目标是得到现有信息下的最优解而不仅仅是样本数趋于无穷大时的最优值。解决了在神经网络方法中无法避免的局部极值问题。特殊性质能保证机器有较好的推广能力,同时巧妙地解决了维数问题,其算法复杂度与样本维数无关。,人工智能与机器学习的整合与统计修正统计学习新趋势,解决现今企
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!