机器学习及其应用ppt课件

上传人:风*** 文档编号:240781318 上传时间:2024-05-08 格式:PPT 页数:28 大小:586.54KB
返回 下载 相关 举报
机器学习及其应用ppt课件_第1页
第1页 / 共28页
机器学习及其应用ppt课件_第2页
第2页 / 共28页
机器学习及其应用ppt课件_第3页
第3页 / 共28页
点击查看更多>>
资源描述
机器学习及其应用机器学习及其应用黄大威黄大威2014年年5月月1.机器学习是新兴学科演化的产物2.机器学习的主要内容3.机器学习的基本方法4.机器学习的应用中医脉诊金融时间序列5.总结机器学习及其应用机器学习及其应用黄大威黄大威2014年年5月月机器学习是新兴学机器学习是新兴学天下大势,合久必分,分久必合。天下大势,合久必分,分久必合。自然哲学(前科学)数学物理化学西医 中医算学历法西方中国农业农业工业工业概率统计信息时代是一个需要和产生信息时代是一个需要和产生通才的时代通才的时代。机器学习是。机器学习是需要和培养需要和培养通才通才的领域。的领域。信息化时代信息化时代信息生物学计量经济学生物力学数量金融工程生物光子学数字信号处理新兴交叉学科新兴交叉学科生物物理生物化学生物统计机器学习统计机器学习天下大势,合久必分,分久必合。自然哲学(前科学)数学物理化学天下大势,合久必分,分久必合。自然哲学(前科学)数学物理化学机器学习演化及联系机器学习演化及联系凡是从数据中自动分析获得规律,并利用规律对未知数据进行预测的方法都在机器学习的研究范围中。无论是获得规律,还是利用规律做预测,主要对象是随机现象,因此统计方法是机器学习的主要工具。然而,作为交叉学科,与信息论,计算机科学及它们衍生的应用学科都有关联;作为研究和使用规律的学科,机器学习比这些应用学科研究对象(如数据挖掘)更广。反过来,由于信息及计算机科学与应用方面的参与,机器学习也创造了很多新方法,促进了统计的发展。概率论统计统计信息论数字信号处理通讯计算机科学神经元网络人工智能数据挖掘机器学习机器学习机器学习演化及联系凡是从数据中自动分析获得规律,并利用规律对机器学习演化及联系凡是从数据中自动分析获得规律,并利用规律对统计机器学习:实践与理论的互动循环统计机器学习:实践与理论的互动循环抽象思维的演绎演绎能力使人类得以构建理论王国。她是有用的,在信息时代也是客观存在的。建于0-1逻辑及存储基础上的计算机就是一个严格的理论世界。各种软件都是基于0-1逻辑基础上演绎出来的。演绎的结果是否正确,取决于前提假设。正确的假设只能从实际中归归纳纳出来。假设是否正确,可由她演绎出来的结果与实际是否相符来检验。机器学习既能帮我们从数据中归纳出假设归纳出假设(无监督学习),也能帮我们在数据和假设的基础上演绎出数学模型演绎出数学模型来(有监督学习)。同时,她在建模的过程中就强调验证,用验证来选择模型。模型最终是否正确,还要新数据来检验。演绎演绎概率论概率论统计统计归纳归纳数据数据假设假设数学模型数学模型验证验证机器学习仍旧需要假设,但它又时时对所做假设抱有怀疑态度,机器学习仍旧需要假设,但它又时时对所做假设抱有怀疑态度,在建模中就不断用数据检验,最终以是否符合新的数据为标准。在建模中就不断用数据检验,最终以是否符合新的数据为标准。统计机器学习:实践与理论的互动循环抽象思维的演绎能力使人类得统计机器学习:实践与理论的互动循环抽象思维的演绎能力使人类得机器学习大观机器学习大观无监督学习无监督学习有监督学习有监督学习数字信号处理生物信息学计量经济学增强学习增强学习数据展示数据展示画图画图聚类聚类(cluster)主元素分析主元素分析我们教机器学习我们教机器学习机器帮我们学习机器帮我们学习回归与分类回归与分类(classification)最小二乘,最小二乘,k近邻法近邻法岭回归,岭回归,Lasso交叉验证,交叉验证,Bootstrap树状图,树状图,AdaBoost 随机森林随机森林神经元网络神经元网络考虑效果与控制考虑效果与控制规划规划机器学习大观无监督学习有监督学习数字信号处理生物信息学计量经机器学习大观无监督学习有监督学习数字信号处理生物信息学计量经方法介绍方法介绍1:最小二乘与:最小二乘与K近邻法近邻法最小二乘源于统计,是线性模型在高斯白噪声情况下均方误差意义最优解,在很一般性质噪声情况下也有相容解。K近邻法源于工程,但广泛条件下它收敛于条件期望,后者是最小均方误差意义下的最优估计。两种方法均用于机器学习,优劣不可一概而论。一般而言,最小二乘适用于简单问题,K近邻法适用于复杂问题复杂问题。方法介绍方法介绍1:最小二乘与:最小二乘与K近邻法最小二乘源于统计,是线性模型在近邻法最小二乘源于统计,是线性模型在方法介绍方法介绍2:线性模型估计与认证:线性模型估计与认证传统统计主要用最小二乘做参数估计;机器学习介绍了Ridge及Lasso等收缩估计以避免过拟合,具有鲁棒性。传统统计对变量选取变量选取有大量研究,如t-或F-检验,逐步回归;较近代有AIC,BIC,MDL等。机器学习更多使用交叉认证交叉认证及Bootstrap,但也不排除使用前述方法。交叉认证交叉认证传统统计得到估计量后常研究它对真实参数的收敛性;机器学习往往不假定真实模型的存在不假定真实模型的存在。个人看法:应假定随尺度而变的近似模型随尺度而变的近似模型。方法介绍方法介绍2:线性模型估计与认证传统统计主要用最小二乘做参数估:线性模型估计与认证传统统计主要用最小二乘做参数估方法介绍方法介绍3:决策树:决策树在机器学习中,决策树是一个预测模型在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。例子:根据属性X1和X2对对象Y分类:Y=1超重,Y=2正常,X1 为饭量,X2为运动量。决策树决策树超重超重正常正常正常正常超重超重方法介绍方法介绍3:决策树在机器学习中,决策树是一个预测模型,他代表:决策树在机器学习中,决策树是一个预测模型,他代表实例:检测垃圾邮件From“The elements of statistical learning”by Hastie etc.建树方法建树方法1.选择垃圾邮件中最可能出现的关选择垃圾邮件中最可能出现的关键字符,例如键字符,例如$,hp,!,.2.根据历史数据中这些字符在垃圾根据历史数据中这些字符在垃圾邮件和正常邮件中出现的频率,邮件和正常邮件中出现的频率,制定相应规则制定相应规则(rule):当该字符出当该字符出现频率大于现频率大于(或小于或小于)某个值,就某个值,就认为该邮件是垃圾或正常邮件。认为该邮件是垃圾或正常邮件。3.决策树由一系列规则串联组成,决策树由一系列规则串联组成,形成一个倒垂的树状结构。形成一个倒垂的树状结构。要点要点1.如何选择关键字符?如何选择关键字符?2.如何选择变量和阈值?如何选择变量和阈值?3.树延伸到何处停止?树延伸到何处停止?常用算法常用算法CART(Classification and Regression Tree),ID3,C4.5,C5.0,实例:检测垃圾邮件实例:检测垃圾邮件From“The elements of方法创新:主元素纯洁树方法创新:主元素纯洁树 PPT1.结构:二元树,数据分为目标结构:二元树,数据分为目标T与 背景B。2.规则:用主元素分析的方法在有监督学习中分步剔除B。3.选择:用主元素法选取能最大限度剔除B的自变量(参数、属性)组合。4.检验:用预留数据检查树的效能,决定树的修剪和停止。5.软决策:用近邻法给出各个样本属于T类的概率估计。RootBB+TBB+TBB+TMake Tree:TrainingRootB+TB+TB+TB+TB+TB+TTest and Use Tree:TestingT方法创新:主元素纯洁树方法创新:主元素纯洁树 PPT结构:二元树,数据分为目标结构:二元树,数据分为目标T与与我个人应用机器学习的一点经验我个人应用机器学习的一点经验基于脉博信号的中医诊断数据模型特征信息提取数据展示(无监督学习)分类算法(有监督学习)软件演示金融时间序列分析问题的数学与统计表述数据展示(无监督学习)分类算法(有监督学习)软件演示如何用机器学习方法来从无确定性基本规律的如何用机器学习方法来从无确定性基本规律的现象中做科学的归纳和演绎?现象中做科学的归纳和演绎?我个人应用机器学习的一点经验基于脉博信号的中医诊断数据模型如我个人应用机器学习的一点经验基于脉博信号的中医诊断数据模型如基于脉博信号的中医诊断数据模型对大量不同人群用脉诊仪对脉搏信号取样,数字化后输入计算机用计算机从脉搏信号中提取属性,包括脉数(脉搏跳动次数)及左右手寸关尺六部的脉位、脉力、各谐波的能量和相位等等,共193个参数用我们开发的实现PPT算法的软件平台,从这些参数中提取有用信息来判断是否是正常人?高血压?肝硬化?妊娠?等等。软件随机选取80%的样本建模,20%用于测试。基于脉博信号的中医诊断数据模型对大量不同人群用脉诊仪对脉搏信基于脉博信号的中医诊断数据模型对大量不同人群用脉诊仪对脉搏信中医诊脉方法简介中医诊脉方法简介脉诊的起源可追溯到公元前七世纪之前。“至今天下言脉者,由扁鹊也。”史记遵循中医“人体是一个由经络相连的整体”以及天人合一的观点,通过“师承授受”的教育模式,逐步发展为以形象口诀(如盘走珠,如按葱管,)为特征的28脉理论。BC300AD200AD1400AD1700从三部九候到独取寸口从三部九候到独取寸口中医诊脉方法简介脉诊的起源可追溯到公元前七世纪之前。中医诊脉方法简介脉诊的起源可追溯到公元前七世纪之前。“至今至今已有脉象数据分析方法:时间域费兆馥等编著的“现代中医脉诊学”人民卫生出版社06年1月版图2.5.2-2脉图的幅值和时值h1:主波幅值;h3:重搏前波幅值;h4:降中峡幅值;h5:重搏波幅值;t1:急性射血期时值;t4:收缩期时值;t5:舒张期时值;t:脉动周期时值;W:主脉在h1上1/3处的时值等。28脉及其像图、传感器及计算机系统、实验研究、临床研究脉及其像图、传感器及计算机系统、实验研究、临床研究重博波重博波潮波潮波主波主波已有脉象数据分析方法:时间域已有脉象数据分析方法:时间域费兆馥等编著的费兆馥等编著的“现代中医脉诊学现代中医脉诊学单个脉象周期的特征参数提取对划分后的周对划分后的周期信号减去均期信号减去均值后,根据它值后,根据它的周期构造前的周期构造前W(不超过不超过12)次谐波,用次谐波,用DFT得到得到Fourier系数。系数。由由Fourier系数系数即可构成单个即可构成单个周期的模型。周期的模型。基波振幅基波振幅基波相位基波相位二次谐波振幅二次谐波振幅二次谐波相位二次谐波相位均值均值单个脉象周期的特征参数提取对划分后的周期信号减去均值后,根据单个脉象周期的特征参数提取对划分后的周期信号减去均值后,根据最终特征参数最终特征参数12个谐波的能量分布(%)及相位脉数(心率)、脉位(周期起始值)和脉力(h1)时域参数t1,t4,h4/h1,t5,h5/h1每个案例中,使用同一的脉数,但左右手、寸关尺六部位上各取一个上述参数,共有6x32+1=193个参数优点:优点:利用频域参数及心率可相当准确地复原脉图,从而可产生任何时域参数利用频域参数及心率可相当准确地复原脉图,从而可产生任何时域参数比简单傅里叶变换更精确比简单傅里叶变换更精确缺点:参数的医学生物物理意义不明确缺点:参数的医学生物物理意义不明确最终特征参数最终特征参数12个谐波的能量分布(个谐波的能量分布(%)及相位优点:)及相位优点:使用无创、方便、简易、便携的诊断方法将是各国医改成功的关键!使用无创、方便、简易、便携的诊断方法将是各国医改成功的关键!使用无创、方便、简易、便携的诊断方法将是各国医改成功的关键!使用无创、方便、简易、便携的诊断方法将是各国医改成功的关键!探测金融市场的变化趋势经济学理论对市场有不同认识,如2013年诺贝尔经济奖。我们的研究结果支持市场还是在一定程度上可预测的。普遍运用的技术分析(Technical Analysis)方法是这一研究方向上的前驱,正在兴起的量化方法(Quantitative Analysis)就是将机器学习和数据挖掘的方法运用于金融大数据中的试尝。James Simons的故事。在本例中,我们运用PPT方法分析目标(价格波动的顶和底)对属性(各种技术分析中使用的指标,如具有不同参数的滑动平均MA,RSI,MACD,RSV,,等等共54xK个,K为延迟)的关系,从而预测金融市场价格波动的顶和底。探测金融市场的变化趋势经济学理论对市场有不同认识,如探测金融市场的变化趋势经济学理论对市场有不同认识,如2013金融市场数据分析的软件平台金融市场数据分析的软件平台金融市场数据分析的软件平台总结:机器学习方法示意图总结:机器学习方法示意图理想王国理想王国现实世界现实世界概率分布概率分布目标函数目标函数模型模型数据数据专业知识专业知识真实参数真实参数验证验证测试测试数据数据数据数据In God we trust,all others bring data.W.E.Deming我们信奉理论,但理论也需要实践来检验。我们信奉理论,但理论也需要实践来检验。总结:机器学习方法示意图理想王国现实世界概率分布目标函数模型总结:机器学习方法示意图理想王国现实世界概率分布目标函数模型参考资料统计学习基础:数据挖掘、推理与预测,统计学习基础:数据挖掘、推理与预测,黑斯蒂等,电子工业出版社,2007“The elements of statistical learning Data miming,inference and prediction”by Hastie,Tibshirani and Friedman,2nd Edition,Springer,2009机器学习导论(计算机科学丛书)Ethem Alpaydm,机械工业出版社 2009http:/ rule:Let PT be the PCA transform matrix of the TARGET data class,X be the total data,the accept region is the parallelgram:For all combinations of 2 indicators,we use the above rule to calculate the purity density of target in R,then choose the two predictors which has the highest density for the current node.Keep above procedure on going with the selected data B+T till stop.From p(p-1)/2 combinationschoose the one with highest purity densityPPT的规则RootBB+TBB+TTB+TBFeature SelectionBasic rule:Let PT be the PCA PPT的自变量选择的自变量选择We use 54(1+d)technical indicators,including MACD,MAd,RSI and RSV with different parameters,as the predictors for peaks or troughs,here d is the delay time unit(day).For each k(=2)combination of these predictors,find the tight region rounding up all targets by its PCA transform.Exhaustive search for all combinations to get the best predictor combination with highest purity percentage for targets inside the region.parallelogram R is constructed by the maxima and minima of PCA transformPPT的自变量选择的自变量选择We use 54(1+d)techniPPT的检验的检验Apply the rule for training data and examine the two ratios:P(T|R)=Number of Targets in R/Total Number in R P(T|N)=Number of Targets in R/Total Number of TTesting P(T|R)measures the randomness of targets,while testing P(R|T)examines if“History repeats itself”or“History valid for current”.Both should be compared to training P(T|R)and P(R|T)=100%.RPPT的检验的检验Apply the rule for trainPPT的软决策的软决策After selecting predictors,we can use nearest neighbour method to estimate the conditional probability of testing dataPT(x)|N(x,k)=Ratio of T in xs k-Neighbour,x for predictor;T(x)=1 for the test data with predictor belongs Target class,T(x)=0 Background class;N(x,k)for the set of xs k-nearest neighbours.N(x,k)xPPT的软决策的软决策After selecting predictPPT的剪枝和停止Compare P(T|R)with test data to P(T|R)with training data:|P(T|R)test-P(T|R)train|.PPT的剪枝和停止的剪枝和停止Compare P(T|R)with t台湾中研院王维工提出的共振理论台湾中研院王维工提出的共振理论 气的乐章气的乐章台湾中研院王维工提出的共振理论台湾中研院王维工提出的共振理论 气的乐章气的乐章
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!