资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,2015/10/30,#,大数据及在互联网金融中的运用,2015/10/9,什么是大数据?,全球每秒钟发送,2.9,百万封,电子邮件,一分钟读一篇的,话,足够一个人昼夜不息的,读,5.5,年,每天会有,2.88,万个小时,的视,频上传到,Youtube,,足够一个人,昼夜不息的观看,3.3,年,每天发布,5,千万条,消息,假设,10,秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览,16,年,每天,淘宝,上将,产生,6.3,百万笔,订单,每个月网民,在微信上,要花费,7,千亿分钟,,被移动互联网使用者发送和接收的数据高达,1.3EB,Google,上每天需要处理,24PB,的数据,什么是大数据,1 Byte=8 bit,1 KB=1024Bytes,1MB=1024KB,1GB=1024MB,1TB=1024GB,1PB=1024TB,1EB=1024,PB,1ZB=1024,EB,1YB=1024,ZB,1BB=1024YB,1NB=1024BB,1DB=1024NB,什么是大数据,什么是大数据,什么是大数据,定义,:,大,数据,(big data),,或称巨量资料,指的是所涉及的资料量,规模巨大,到无法,透过人工,,在合理时间内达到撷取、管理、处理、并整理,成为人类所能理解的信息,在维克托,.,迈尔,-,舍恩伯格及,肯尼斯,.,库克耶,编写的,大数据时代,中,大,数据是,指不用随机分析抽样调查的方法,而采用对所有数据进行分析的方法。,1.Volume,数据量,2.,Variety,多变性,3.value,价值性,4.Velocity,时效性,结构化数据、半结构化数据和非结构化数据,如今的数据类型早已不是单一的文本形式,订单、日志、,音频,.,,,对,能力,提出了更高的要求,沙里淘金,价值密度低,以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。数据的价值“提纯”是目前亟待解决的难题,实时获取需要的信息,大数据区分于传统数据最显著的特征。如今已是,ZB,时代,在如此海量的数据面前,处理数据的效率就是企业的生命,什么是,Big Data,数据量巨大,全球在,2010,年正式进入,ZB,时代,,IDC,预计到,2020,年,全球将总共拥有,35ZB,的数据量,大数据的特点,大数据的特性,大数据,的特性,更关注,价值性,主要用,于预测,数据量,巨大,实时性,要求高,移动互联网、社交网络、电子商务等极大拓展了互联网的边界和应用范围,facebook,社交网络,微博,淘宝、,ebay,电子商务,手机、,Apps,移动互联,大数据是如何产生的?,大,数据资源,百,度、阿里、腾讯为代表的互联网公司。,百度作为全球最大的中文搜索引擎,存储数据重量近一千个,PB,今年完成的云计算中心将能存贮超,4000,个,PB,数据量。阿里约有,30,万台服务器存储近百,PB,,腾讯拥有的数据覆盖多个领域,数据存储量经压缩处理后在,100PB,左右,且月增数据在,10%,左右。其他领域如杀毒软件,电子地图,影视娱乐类互联网公司等。,电信、金融、保险系统,。,大,数据技术,=,海量数据,+,分析建模,+,挖掘过程,大数据技术是什么?,数据,技术,思维,大,数据,技术,数据,技术,思维,大,数据,技术,CRISP-DM,(,跨行业数据挖掘标准流程,),是一种业界认可的用于指导大数据分析挖掘工作的方法。,CRISP-DM,认为在大数据分析中存在一个大数据分析挖掘生命周期模型。在这个生命周期模型中存在着商业理解、数据理解、数据准备、建立模型、模型评估和结果部署这六个阶段。,大数据精准营销,此前,,淘宝为解决买卖双方退货时的运费纠纷,引入某保险公司提供退货运费险,经统计,淘宝用户运费险索赔率在,50%,以上,。也就是说,,,10,个淘宝用户购买运费险,,5,个以上将会退换货,该保险公司需要赔付,该产品对这家保险公司带来的利润只有,5%,左右,仅从保险公司的角度,这个产品并不是很成功。但是该公司仍然坚持在做,并且又有新的保险公司“加盟”,。其,秘密在于,客户购买运费险后保险公司就可以获得该客户的个人基本信息,包括手机号和银行账户信息等,并能够了解该客户购买的产品信息,从而实现精准推送。假设该客户购买并退货的是婴儿,奶粉尿不湿,,那么保险公司就可以估计该客户家里有小孩,可以向其推荐关于儿童疾病险、教育险等相关产品,这比,5%,的利润更有吸引力。,利用数据来分析客户的购买倾向,从而实现精准营销,其实国外的电子商务网站早已运用自如,比如亚马逊的推荐系统可以根据客户浏览信息,找到产品的相关性,并快速做出推荐,。,大数据应用,实例,精准营销,大数据应用,实例,精准营销,大数据应用,实例,精准营销,(,一)大数据信用体系建设,大,数据技术的发展引发对互联网金融的个人和企业身份认证和信用评估的变革,除了对评估对象静态信息的分析外,更重要的是变化中的动态信息的分析挖掘,建立用户的信用评分和增信模型。比如对企业,在供应链的各个环节、如订单、库存、下线、结算、付款等关键环节产生的数据进行清理建库、分析挖掘,进而建立企业的信用等级模型和算法,并根据其信用等级、成长性、未来发展预测等给予不同的信用额度。对于个人用户,除了他们注册登记的实名制静态信息外,他们在网络上的购物、支付、投资、生活、公益等数据形成上百种场景的信息流,将这些静态和动态数据结合起来,就能形成用户的行为轨迹,通过交叉检验,对用户的真实身份进行识别,进而建立信用打分模型和算法,对客户进行分类,再提供针对性服务。互联网信用体系建设对于信用风险的管理的变革有积极的意义。,。,大,数据应用,信用,风险管理,(二)以大数据解决信息不对称的问题,以阿里金融为例,其整合了电子商务过程中所形成的各种数据来进行信用分析,包括商户的历史交易数据、信用记录、客户评价等内部数据,以及纳税记录、海关记录等外部数据。这些数据比现实中发布的小微企业财务数据更加真实。阿里金融将所有这些信息进行量化,然后将数值输入网络行为评分模型,从而对小微客户进行评级分层,同时还引入在线视频资信调查模式,以及通过交叉检验技术辅以第三方验证确认客户信息的真实性,最终将客户在电子商务网络平台上的行为数据映射为企业和个人的信用评价,决定是否可以对其放贷,以及贷款的金额和利率,解决了传统金融行业对个人和小企业贷款存在的信息不对称和流程复杂的问题,并实现了良好的风险管理,。,大,数据应用,信用,风险管理,阿里小贷放贷模型“水文模型”,水文模型就是阿里小贷,2013,年着重搭建的重要数据模型之一,它参考了人们日常所熟悉的水文管理,将特定时间的水位值与历史的水文数据以及周边河道的数据进行比较,就可以对水位的变化情况作出判断。将该模型应用到小微信贷中,一方面可以完善风险管理,在更详尽数据基础之上进行授信,减少特殊因素对授信判断的影响;另一方面可以通过模型进行预判,包括对小微企业自身经营的走向,以及小微企业资金需求的节点和量的判断。,阿里小贷有超过上百个数据模型,覆盖贷前、贷中、贷后管理,反欺诈、市场分析、信用体系、创新研究等板块。其决策系统每天处理的数据量达,10TB,。数据分析用于向公司的管理决策层提供科学客观的分析结果及建议,并对业务流程提出优化改进方案,。,大,数据应用,信用风险管理,2008,年美国,,基于,大数据估计出来的个人房屋按揭信用模型并没有帮助防范席卷全球的金融危机。这是为什么呢?,大,数据应用,大数据局限性,1.,任何基于历史数据的预测模型,都假设在相同条件下,人们会做出相同的行为选择,这通常是正确的。但在模型中没有被捕获的变量(即所谓潜在变量),有可能在某时某地发生改变,从而改变人们的行为。这种影响是很难单独被传统数据抓获。而大数据的技术还也不可能产生一个系统地展现方式。当大数据中缺乏类似环境时,这种模式的变化就不甚明了,。,2.,预测不仅需要模型,也需要输入,比如假设:未来的利率如何变化,房价增长率如何?但是在很多时候,没有一个好办法来事先判断假设的合理性。基于历史的数据,以及缺乏市场风险的传导机制的理解使得对假设的合理性缺乏判断。,大,数据应用,大数据局限性,1.,任何基于历史数据的预测模型,都假设在相同条件下,人们会做出相同的行为选择,这通常是正确的。但在模型中没有被捕获的变量(即所谓潜在变量),有可能在某时某地发生改变,从而改变人们的行为。这种影响是很难单独被传统数据抓获。而大数据的技术还也不可能产生一个系统地展现方式。当大数据中缺乏类似环境时,这种模式的变化就不甚明了,。,2.,预测不仅需要模型,也需要输入,比如假设:未来的利率如何变化,房价增长率如何?但是在很多时候,没有一个好办法来事先判断假设的合理性。基于历史的数据,以及缺乏市场风险的传导机制的理解使得对假设的合理性缺乏判断。,大,数据应用,大数据局限性,THANKS!,
展开阅读全文