资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,大数据平台,演讲人,2022-01-04,01.,工作应用,02.,工程核心,目录,01,工作应用,工作应用,用户画像,风险控制,01,业务相关,数据科学的领域,了解统计学、算法,数据科学家,02,决策相关,如何实施、实现、解决什么业务,数据工程师,03,工程相关,02,工程核心,工程核心,A,B,C,数据源,数据存储,数据处理,工程核心,数据源,01,02,特点决定数据采集和数据存储的技术选型,四种,内外部,内部主动写入,CRM,外部网络拉取,获得外部数据本身提供的api,写爬虫获取,特点,结构化和非结构化数据,结构化偏向文件,NoSQL数据库,四种,不变可添加数据,可修改可删除数据,前,增量同步策略,后,大,高延迟,实时分析,Lambda架构,数据量大小,工程核心,数据存储,01,02,03,相同数据多种表现形式,存储不同类型数据库中,按数据源分类,场景,相同数据多种表现形式,存储不同类型数据库中,poly-db数据冗余生态,按数据源分类,三种,分析数据的应用场景,采集后数据的格式和规模,数据源的类型和采集方式,选择用ES,在单机上做了一个简单的测试,大概三亿多条数据,用最坏的查询条件进行搜索,保证这个搜索是全表搜索(基于Lucence创建了索引,使得这种搜索更高效),整个查询时间能控制在几秒以内,场景一,舆情分析,场景二:商业智能产品,对数据集进行分析(聚合运算为主),Parquet列式存储,既要满足大数据量的水平可伸缩,同时满足高性能的聚合运算,要求,数据来源,大量的事件,本身的业务数据,技术处理:,日志数据通过Kafka,线上通过Sqoop,数据存储选择HDFS,通过Presto对Hive表执行 即席查询,场景三:Airbnb大数据平台,工程核心,数据处理,业务角度,01,技术角度,02,编程模型,03,业务角度,机器学习,神经网络,深度分析,统计分析,数据挖掘,查询检索,技术角度,01,Batch SQL,02,流式处理,03,machine learning,04,Deep learning,编程模型,离线编程模型,1,内存编程模型,2,实时编程模型,3,感谢聆听,
展开阅读全文