大数据平台概述ppt课件

上传人:风*** 文档编号:244592875 上传时间:2024-10-05 格式:PPTX 页数:22 大小:608.04KB
返回 下载 相关 举报
大数据平台概述ppt课件_第1页
第1页 / 共22页
大数据平台概述ppt课件_第2页
第2页 / 共22页
大数据平台概述ppt课件_第3页
第3页 / 共22页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,大数据平台,演讲人,2022-01-04,01.,工作应用,02.,工程核心,目录,01,工作应用,工作应用,用户画像,风险控制,01,业务相关,数据科学的领域,了解统计学、算法,数据科学家,02,决策相关,如何实施、实现、解决什么业务,数据工程师,03,工程相关,02,工程核心,工程核心,A,B,C,数据源,数据存储,数据处理,工程核心,数据源,01,02,特点决定数据采集和数据存储的技术选型,四种,内外部,内部主动写入,CRM,外部网络拉取,获得外部数据本身提供的api,写爬虫获取,特点,结构化和非结构化数据,结构化偏向文件,NoSQL数据库,四种,不变可添加数据,可修改可删除数据,前,增量同步策略,后,大,高延迟,实时分析,Lambda架构,数据量大小,工程核心,数据存储,01,02,03,相同数据多种表现形式,存储不同类型数据库中,按数据源分类,场景,相同数据多种表现形式,存储不同类型数据库中,poly-db数据冗余生态,按数据源分类,三种,分析数据的应用场景,采集后数据的格式和规模,数据源的类型和采集方式,选择用ES,在单机上做了一个简单的测试,大概三亿多条数据,用最坏的查询条件进行搜索,保证这个搜索是全表搜索(基于Lucence创建了索引,使得这种搜索更高效),整个查询时间能控制在几秒以内,场景一,舆情分析,场景二:商业智能产品,对数据集进行分析(聚合运算为主),Parquet列式存储,既要满足大数据量的水平可伸缩,同时满足高性能的聚合运算,要求,数据来源,大量的事件,本身的业务数据,技术处理:,日志数据通过Kafka,线上通过Sqoop,数据存储选择HDFS,通过Presto对Hive表执行 即席查询,场景三:Airbnb大数据平台,工程核心,数据处理,业务角度,01,技术角度,02,编程模型,03,业务角度,机器学习,神经网络,深度分析,统计分析,数据挖掘,查询检索,技术角度,01,Batch SQL,02,流式处理,03,machine learning,04,Deep learning,编程模型,离线编程模型,1,内存编程模型,2,实时编程模型,3,感谢聆听,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!