大数据时代技术与应用

上传人:唐****1 文档编号:240755788 上传时间:2024-05-05 格式:PPT 页数:73 大小:13.45MB
返回 下载 相关 举报
大数据时代技术与应用_第1页
第1页 / 共73页
大数据时代技术与应用_第2页
第2页 / 共73页
大数据时代技术与应用_第3页
第3页 / 共73页
点击查看更多>>
资源描述
大数据时代:技术与应用/副教授中国海洋大学信息科学与工程学院E-mail:大数据大数据营销纸牌屋是“大数据”时代下的产物,其制作公司Netflix公司通过对3000万付费用户的收视习惯、剧情评论、演员喜好等数据精准分析定制内容,将全部13集内容一次全部推出而大获成功。现代海洋科技代海洋科技浅蓝深蓝透明海洋Too much Volume(I have too much data)Too much Velocity(Its coming at me too fast)Too much Variety(Its coming at me from too many places in too many formats)What is“Big Data”数据爆炸:互联网催生大量数据“COPYRIGHT RESERVED”,“一键分享一键分享”1995年,Windows95,MB2004,Google上市,GB2014,大数据,TB,PB大数据分析大数据分析字节(B)、千字节(KB)、兆字节(MB)、吉字节(GB)、太字节(TB)、拍字节(PB)、艾字节(EB)、泽它字节(ZB,又称皆字节)、尧它字节(YB)表示、千亿亿亿字节(BB)封面故事:利用海量数据的最新策略研究人员怎样才能应对现代方法所产生的大量数据流?大数据分析大数据分析不是随机样本,而是全体数据不是精确性,而是混杂性不是因果关系,而是相关关系大数据分析大数据分析1.AnalyticVisualizations(可视化分析)2.DataMiningAlgorithms(数据挖掘算法)3.PredictiveAnalyticCapabilities(预测性分析能力)4.SemanticEngines(语义引擎)5.DataQualityandMasterDataManagement(数据质量和数据管理)大数据分析大数据分析可可视化:化:NASA公布全球洋流公布全球洋流图语义搜索引擎搜索引擎数据挖掘数据挖掘案例分析:案例分析:电子商子商务领域域大数据之用大数据之用户行行为分析分析数据挖掘:机器学数据挖掘:机器学习算法算法学习方式1 1、监督式;、监督式;2 2、非监督式;、非监督式;3 3、半监督式;、半监督式;4 4、强化;、强化;算法类似性1 1、回归算法;、回归算法;2 2、基于实例的算法;、基于实例的算法;3 3、正则化方法;、正则化方法;4 4、决策树学习;、决策树学习;5 5、贝叶斯方法;、贝叶斯方法;6 6、基于核的算法;、基于核的算法;7 7、聚类算法;、聚类算法;8 8、关联规则学习;、关联规则学习;9 9、人工神经网络、人工神经网络数据挖掘:机器学数据挖掘:机器学习算法算法输入数据,被称作“训练数据”,并进行标识。在建模时,将预测结果和实际结果进行比较,不断调整,直到预期的准确率。应用:分类、回归算法:逻辑回归、反向传递神经网络等监督式学督式学习非非监督式学督式学习数据不被标识,学习模型是为了推断出数据的内部结构。应用场景:企业数据,如关联规则学习、聚类半半监督学督学习数据部分被标识,部分不被标识。模型先学习数据的内部结构,再用于预测应用场景:图像识别,回归和分类算法:对标识数据进行建模,然后对未标识数据进行预测。强化学化学习数据:直接作为模型的反馈模型:必须对数据做出直接反应应用场景:动态系统和机器人控制机器学机器学习算法算法学习方式1 1、监督式;、监督式;2 2、非监督式;、非监督式;3 3、半监督式;、半监督式;4 4、强化;、强化;算法类似性1 1、回归算法;、回归算法;2 2、基于实例的算法;、基于实例的算法;3 3、正则化方法;、正则化方法;4 4、决策树学习;、决策树学习;5 5、贝叶斯方法;、贝叶斯方法;6 6、基于核的算法;、基于核的算法;7 7、聚类算法;、聚类算法;8 8、关联规则学习;、关联规则学习;9 9、人工神经网络、人工神经网络回回归分析分析 Regression Analysis物理意义:试图采用对误差的衡量来描述变量之间的相关关系步骤步骤 确定变量确定变量 建立预测模型建立预测模型 进行相关分析进行相关分析 计算预测误差计算预测误差 确定预测值确定预测值 回回归分析分析 Regression AnalysisSIMSIM手机的用户满意度与相手机的用户满意度与相关变量的线性回归分析关变量的线性回归分析因变量:因变量:“用户满意度用户满意度”自变量:自变量:“质量质量”、“形象形象”和和“价格价格”回归方程:回归方程:用户满意度用户满意度=0.008=0.008形象形象+0.645+0.645质量质量+0.221+0.221价格价格指标显著性水平意义R20.89“质量”和“形象”解释了89%的“用户满意度”的变化程度F248.530.001回归方程的线性关系显著T(形象)0.001.000“形象”变量对回归方程几乎没有贡献T(质量)13.930.001“质量”对回归方程有很大贡献T(价格)5.000.001“价格”对回归方程有很大贡献回回归分析分析 Regression Analysis指标显著性水平意义R0.89“质量”和“形象”解释了89%的“用户满意度”的变化程度F374.690.001回归方程的线性关系显著T(质量)15.150.001“质量”对回归方程有很大贡献T(价格)5.060.001“价格”对回归方程有很大贡献SIMSIM手机的用户满意度与相关手机的用户满意度与相关变量的线性回归分析变量的线性回归分析因变量:因变量:“用户满意度用户满意度”自变量:自变量:“质量质量”、“形象形象”和和“价格价格”回归方程:回归方程:用户满意度用户满意度=0.008=0.008形象形象+0.6450.645质量质量+0.221+0.221价格价格决策决策树 DecisionDecisionTreeree决策决策树 DecisionDecisionTreereeEMV(建大厂)=(0.4)*($100,000)+(0.6)*(-$90,000)=-$14,000 EMV(中型厂)=(0.4)*($60,000)+(0.6)*(-$10,000)=+$18,000 EMV(建小厂)=(0.4)*($40,000)+(0.6)*(-$5,000)=+$13,000 EMV(不建厂)=$0 如果建一个大厂大厂且市场较好就可实现$100,000的利润。如果市场不好则会导致$90,000的损失。但是,如果市场较好,建中型厂中型厂将会获得$60,000,小型厂小型厂将会获得$40,000,市场不好则建中型厂将会损失$10,000,小型厂将会损失$5,000。当然,还有一个选择就是什么也什么也不干不干。最近的市场研究表明市场好的概率是0.4,也就是说市场不好的概率是0.6。决策决策树 DecisionDecisionTreeree根据根据EMV标准标准公司应该建一个中型厂公司应该建一个中型厂复复杂网网络ComplexNetworksComplexNetworksA spatial complex dynamical network with time-varying(switching)topology复复杂网网络Complex NetworksConsensusCorrect consensus (True learning)Control Manipulation Misinformation 复复杂网网络Complex NetworksPOWER OF BIG DATAOF THE DATA Wisdom of crowds BY THE DATA What u need to changeFOR THE DATA Quality matters most工商数据分析应用案例简介活跃度分析包括资本活跃度CRI(Capital Relative index)和主体数量活跃度QRI(Quantity Relative index)。活跃度指数是衡量市场环境的体检表,也是实体经济的晴雨表,是一项重要的经济先行指标。活跃度指数与企业生存环境和市场投资环境密切相关,在市场环境转好时,投资踊跃,资本活跃度指数升高;反之,指数下降,表示投资人不愿向经济体注入资金,反映市场环境趋于恶化。案例一 市场主体活跃度模型 分析案例市场主体活跃度模型活跃度指数与很多市场经济指标有相当密切的关系。CRI与财政收入呈现明显的相关关系。CRI与存款准备金率、CPI等也有明显相关关系。案例一 市场主体活跃度模型 案例分享企业生命周期企业生命周期是反映某一国家或地区中市场环境优劣的重要指标,一般来讲,长寿企业对于区域市场经济秩序的稳定有一定积极作用,相对的非长寿企业对经济秩序的平稳有相应的负面影响。对不同维度中的企业分析其生命周期,可以客观反映区域细分市场的经济秩序,从而协助决策者准确把握影响区域市场经济秩序的主要因素。案例二 市场主体退出路径 案例分享企业生命周期常规统计一般趋势分析生存规律挖掘基于规律的知识发现企业生命周期的分析层次 基于工商登记数据分析企业生命周期,一般有两种常见的分析层次:常规统计、一般趋势分析。通过对数据的深度分析,还可以挖掘出区域企业的生存规律,并可以根据生存规律进一步总结出直观的,可用于实际监管工作的“知识”。善于发现数据背后的规律与价值案例二 市场主体退出路径 Chapter#7案例分享企业生命周期常规统计一一般般趋趋势势分分析析案例二 市场主体退出路径 43Chapter#7案例分享企业生命周期生存规律挖掘基于规律的知识发现死亡高风险时间段-政府监管介入的最佳时机案例二 市场主体退出路径 不同产业,不同区域,不同规模市场主体存活率的研究有助于判别市场生态环境发生了哪些变化。产业生命周期模型对于政府产业扶持政策的出台也有着较强的参考意义。案例二 市场主体退出路径 u用2000-2007年的数据预测2001-2007年成立企业在2008年末的存活数。u预测2001-2007年成立企业在2008年末的存活总数为363322,实际存活个数为 364927,误差为-0.44%。开业年开业年开业数开业数存活率存活率预测存活个数预测存活个数实际存活个数实际存活个数误差个数误差个数误差误差2001200170,50670,5060.41910.419129,55029,55028,80928,8097417412.57%2.57%2002200274,11174,1110.46270.462734,29334,29333,59333,5937007002.08%2.08%2003200385,30685,3060.51000.510043,50843,50842,64142,6418678672.03%2.03%2004200499,48599,4850.56950.569556,66056,66055,41355,4131,2471,2472.25%2.25%2005200596,35696,3560.64340.643461,99761,99763,94163,941-1,944-1,944-3.04%-3.04%2006200681,69881,6980.74930.749361,21561,21563,28863,288-2,073-2,073-3.28%-3.28%2007200785,35385,3530.89160.891676,09876,09877,24277,242-1,144-1,144-1.48%-1.48%案例二 市场主体退出路径 预测验证 “偏好”(Preference)一词源自经济学术语,反映用户对某种物品或劳务的喜爱或不喜爱程度,这种喜爱或不喜爱与物品或劳务的价格及用户收入无关。偏好模型主要用于分析不同类型群体之间的结构差异。投资偏好等于1时,表明没有显著差异。当投资偏好1时,表明该群体有着显著的比较优势。案例三 区域产业偏好分析模型 案例五 波士顿矩阵分析洞察产业变迁A类(优势行业)B类(支柱行业)C类(潜力行业)D类(弱势行业):案例五 波士顿矩阵分析洞察产业变迁北京市2008、2009年重点行业产业迁移情况。如,2009年租赁和商务服务业优势地位近一步增强;科学研究、技术服务行业由支柱行业向优势行业转化;制造业则逐步从支柱行业向弱势行业转化。案例五 智波士顿矩阵分析洞察产业变迁案例五 智波士顿矩阵分析洞察产业变迁利润率%可视化案例GIS of Beijing Administration for Industry and Commerce 地理分析系统-市场主体密度分析使分析更加直观化根据市场主体GIS信息进行密度分析。叠加其他面数据信息,可直观看出主体的区域分布热点。密度分析:根据输入的点要素的分布,计算整个区域的数据分布情况,从而生成一个连续的表面。GIS for SAIC GIS of Beijing Administration for Industry and Commerce 地理分析系统-市场主体密度分析使分析更加直观化GIS for SAIC GIS of Beijing Administration for Industry and Commerce 地理分析系统-市场主体密度分析使分析更加直观化GIS for SAIC GIS of Beijing Administration for Industry and Commerce 市场主体密度分析叠加网格数据,点数据GIS for SAIC GIS of Beijing Administration for Industry and Commerce 市场主体3D分析根据市场主体GIS信息进行3D分析。按照其属性值进行3维拉伸,直观展现主体的区域分布差异。3D分析:根据输入的点要素的分布,计算整个区域的数据分布高程情况,从而生成不同高度的3D图形。GIS for SAIC GIS of Beijing Administration for Industry and Commerce 市场主体3D分析-外资 2008-2010 新增企业数量(区县)GIS for SAIC GIS of Beijing Administration for Industry and Commerce 市场主体3D分析-外资 2008-2010 新增企业数量(工商所)GIS for SAIC GIS of Beijing Administration for Industry and Commerce 市场主体3D分析-外资 2008-2010 新增企业数量(网格)GIS for SAIC GIS of Beijing Administration for Industry and Commerce 市场主体3D分析外资 2008-2010 新增企业注册资本美国 2008-2010 新增企业注册资本银行业分布地形图果蔬业分布图GIS for SAIC 案例九族谱探寻算法 分析案例族谱图案例九 族谱探寻算法 分析案例族谱图沈阳化工集团有限公司案例九 族谱探寻算法 Thankyou!
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 管理文书 > 金融资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!