数据挖掘基础讲座课件

上传人:无*** 文档编号:241431813 上传时间:2024-06-25 格式:PPTX 页数:51 大小:1.13MB
返回 下载 相关 举报
数据挖掘基础讲座课件_第1页
第1页 / 共51页
数据挖掘基础讲座课件_第2页
第2页 / 共51页
数据挖掘基础讲座课件_第3页
第3页 / 共51页
点击查看更多>>
资源描述
数据挖掘基础讲座概率统计、随机过程、信息论基础数据挖掘基础讲座概率统计、随机过程、信息论基础1课程的性质短时间讲多内容数学分析讲辛钦(国立莫斯科大学)数据挖掘课程上所需要的概率统计、随机过程、信息论知识结合工作中数据挖掘、统计中的学习体会课程的性质短时间讲多内容2概率论随机变量和概率分布联合分布、条件分布和独立性概率分布的特征联合与条件分布特征一些重要的分布概率论随机变量和概率分布3数理统计估计量的有限样本性质估计量的大样本性质(大数定律、中心极限定理)参数估计区间估计和置信区间数理统计估计量的有限样本性质4信息论熵、相对熵、信息量、互信息渐进均分性(信息论中的大数定律)信息论与统计科尔莫戈罗夫复杂性(奥克姆剃刀)信息论熵、相对熵、信息量、互信息5随机过程马尔可夫过程隐马尔可夫模型随机过程马尔可夫过程6随机变量和概率分布离散随机变量:取值至多可数的随机变量为离散型的随机变量。概率分布(分布律)且随机变量和概率分布离散随机变量:取值至多可数的随机变量为离散7典型的离散随机变量分布0-1分布:且p+q=1,p0,q0,则称X服从参数为p的0-1分布,或两点分布,还可以表示成:典型的离散随机变量分布0-1分布:且p+q=1,8典型的离散随机变量分布且二项二项分布分布:二项分布是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。举个例子就是,独立重复地抛n次硬币,每次只有两个可能的结果:正面,反面,概率各占1/2。典型的离散随机变量分布且二项分布:二项分布是n个9典型的离散随机变量分布且泊松泊松分布分布:典型的离散随机变量分布且泊松分布:10连续的随机变量分布分布函数分布函数:定义:对于随机变量X的分布函数F(x),若存在非负的函数f(x),使对于任意实数x,有:则称X为连续型随机变量,其中f(x)称为X的概率密度函数,简称概率密度。型随机变量的概率密度f(x)有如下性质:连续的随机变量分布分布函数:定义:对于随机变量X的分布函数F11典型的连续随机变量分布均匀分布均匀分布:若连续型随机变量X具有概率密度,则称均匀分布:典型的连续随机变量分布均匀分布:若连续型随机变量X具有概率密12典型的连续随机变量分布指数指数分布分布:典型的连续随机变量分布指数分布:13典型的连续随机变量分布正态分布(高斯分布)正态分布(高斯分布):典型的连续随机变量分布正态分布(高斯分布):14典型的连续随机变量分布正态分布(高斯分布)特点(为何如此重要)正态分布(高斯分布)特点(为何如此重要):中心极限定理的完美体现分布的值非常集中的分布在中心区域面积可以精确的计算出来典型的连续随机变量分布正态分布(高斯分布)特点(为何如此重要15典型的连续随机变量分布幂律分布幂律分布(长尾分布长尾分布):没有明确的代数式子分布趋向于0的速度远小于指数分布典型的连续随机变量分布幂律分布(长尾分布):16典型的连续随机变量分布判断方法判断方法:典型的连续随机变量分布判断方法:17典型的连续随机变量分布真实的分布真实的分布:社交网站用户数量和用户社交网站用户数量和用户关注度数量的分布关注度数量的分布网络终端结点之间网络终端结点之间RTT值的值的分布(密度函数)分布(密度函数)典型的连续随机变量分布真实的分布:社交网站用户数量和用户关注18典型的连续随机变量分布幂律分布的重要幂律分布的重要:大量社会规律服从,实践中常遇到,大量社会规律服从,实践中常遇到,大数据大数据领领域经常遇到域经常遇到数学期望发散,不要用均值来替代整体分布数学期望发散,不要用均值来替代整体分布大数大数定律和中心极限定理不成立定律和中心极限定理不成立典型的连续随机变量分布幂律分布的重要:19典型的连续随机变量分布幂律分布的应用幂律分布的应用:典型的连续随机变量分布幂律分布的应用:20数学期望如果X是在概率空间(,P)中的一个随机变量,那么它的期望值EX的定义是:数学期望如果X是在概率空间(,P)中的一个随机变量,那么21方差方差:一个随机变量的方差(Variance)描述的是它的离散程度,也就是该变量离其期望值的距离。一个实随机变量的方差也称为它的二阶矩或二阶中心动差,恰巧也是它的二阶累积量。为平均数,N为样本总数方差方差:一个随机变量的方差(Variance)描述的是它的22方差离散和连续随机变量方差计算:方差离散和连续随机变量方差计算:23中位数中位数:对数据集中趋势的一个度量。定义定义:连续随机变量概率密度函数中,左边和右边刚好相等的位置。离散随机变量中的中间值。特点:数据约不平衡,中位数和数学期望相差越大。幂律分布下,观察样本数据的数学期望和中位数之间差值的变化。中位数中位数:对数据集中趋势的一个度量。24联合分布、条件分布和独立性协方差:涵义:协方差度量两个随机变量的线性相关性,正值代表同向移动,负值代表反向移动。独立协方差为0,反过来不正确联合分布、条件分布和独立性协方差:涵义:协方差度量两个随机变25相关系数相关系数:sd(X),sd(Y)代表标准差相关系数相关系数:sd(X),sd(Y)代表标准差26条件数学期望离散变量:给定X的条件数学期望连续变量:联合概率密度函数Y边缘概率密度函数条件概率密度函数条件数学期望条件数学期望离散变量:给定X的条件数学期望连续变量:联27数理统计估计量的有限样本性质估计量的大样本性质(大数定律、中心极限定理)参数估计区间估计和置信度假设检验数理统计估计量的有限样本性质28估计量性质无偏性W为参数u的一个估计量,h为函数有效性:样本方差小的那个估计量估计量性质无偏性W为参数u的一个估计量,h为函数有效性:样本29估计量性质一致性:估计量的趋势特性估计量性质一致性:估计量的趋势特性30大数定律大数定律31中心极限定理排除了原始分布的影响,只要期望方差存在。其存在有一定的假设中心极限定理排除了原始分布的影响,只要期望方差存在。32中心极限定理随机变量独立服从同一分布期望、方差存在并有限幂律分布第三个条件不满足中心极限定理随机变量独立幂律分布第三个条件不满足33参数估计矩估计将参数表示成与X分布的某些期望有某种关系,通常是 E(X)有关系的量,如果样本均值 是 E(X)的无偏并且一致估计量,是线性函数因此依然无偏,则可用样本矩 代替总体矩参数估计矩估计34最大似然估计最大似然估计似然函数:关于 的函数最大似然估计最大似然估计35区间估计和置信区间区间估计的必要性点估计+样本的标准差 不足以给出总体值落在相对于样本值的什么地方置信区间的理解问题区间估计和置信区间区间估计的必要性36充分统计量充分统计量2p83 充分统计量是一个关于样本D的函数s,其中包含了能够有助于估计某种参数 的所有相关的信息样本均值和样本(协)方差构成了真实均值和协方差的一个充分统计量充分统计量充分统计量样本均值和样本(协)方差构成了真实均值和37充分统计量Hadoop适合处理的统计量信息论对充分统计量的估计充分统计量Hadoop适合处理的统计量信息论对充分统计量的估38信息论熵、相对熵、信息量、互信息渐进均分性(信息论中的大数定律)信息论与统计学科尔莫戈罗夫复杂性(奥克姆剃刀)信息论熵、相对熵、信息量、互信息39信息论初步信息论初步40熵、相对熵熵:相对熵:熵、相对熵熵:相对熵:41熵、相对熵相对熵:涵义:两个随机分布之间的距离的度量。熵、相对熵相对熵:涵义:两个随机分布之间的距离的度量。42互信息互信息:一个随机变量包含另一个随机变量信息量的度量。也即在给定另一随机变量知识的条件下,原随机变量不确定度的缩减量互信息互信息:一个随机变量包含另一个随机变量信息量的度量。也43充分统计量充分统计量44渐进均分性渐进均分定理:解释:几乎一切事件都令人同等的意外渐进均分性渐进均分定理:解释:几乎一切事件都令人同等的意外45信息和统计费希尔信息在参数估计中的作用:参数值逼近的评估信息和统计费希尔信息在参数估计中的作用:46奥克姆剃刀奥克姆剃刀:简单性原理,是科学界常用的一个准则,具体表述为,如果多个理论同时都能解释某一现象,那么我们优先取利用假设最少的理论,这个理论被认为是最好的。越简洁的推论可能性就越高。根据复杂度来权衡所有可能的解释科尔莫戈罗夫复杂度:一个数据串的复杂度可以定义为计算该数据串所需的最短二进制程序的长度。如果序列服从熵为H的分布,那么该序列的科尔莫戈罗夫复杂度近似等于熵H。算法复杂度 PK计算复杂度奥克姆剃刀奥克姆剃刀:科尔莫戈罗夫复杂度:47随机过程马尔可夫过程隐马尔可夫模型随机过程马尔可夫过程48马尔科夫过程马尔可夫链马尔可夫链(MarkovChain),描述了一种状态序列,其每个状态值取决于前面有限个状态。状态迁移问题状态分类和状态空间分解马尔科夫链的极限形态和平稳分布生灭过程马尔科夫过程马尔可夫链状态迁移问题49隐马尔科夫过程状态序列隐藏 观察序列 观察序列只和状态序列相关(独立输出假设)模型训练:给定一个模型,如何计算某个特定的输出序列的概率;给定一个模型和某个特定的输出序列,如何找到最可能产生这个输出的状态序列;给定足够量的观测数据,如何估计HMM模型算法隐马尔科夫过程状态序列隐藏模型训练:50参考文献1计量经济学,现代观点 J.M.Wooldridge.2信息论基础 ThomasM.Cover3应用随机过程 林元烈4模式分类 RichardO.Duda5数据之魅 PhilippK.Janert参考文献1计量经济学,现代观点J.M.Wooldri51
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!