《Python金融数据挖掘》-ppt课件第1章

资源描述

,Python,金融数据挖掘,高等教育出版,第一章,引言,Python金融数据挖掘高等教育出版第一章引言,【知识框架图】,入门知识,数据挖掘的概念,数据挖掘的定义与现状,常见数据挖掘算法,金融数据挖掘,的意义和应用,意义,应用现状,Python,金融数据挖掘基础,关于,Python,语言,Anaconda/Miniconda,，,Notebook,、,Spyder,等,Python,集成开发环境,Numpy,、,Pandas,、,Scipy,、,Matplotlib,、,Scikit-Learn,等数据挖掘扩展包,【知识框架图】入门知识数据挖掘的概念数据挖掘的定义与现状常见,目录,Contents,第一节,数据挖掘的,概念,第二节,金融数据挖掘的,意义和应用,第三节,Python,金融数,据挖掘基础,目录Contents第一节数据挖掘的第二节金融数据挖掘的第三,本章学习目标,掌握数据挖掘的定义、数据挖掘算法分类。,了解金融领域应用数据挖掘技术的意义、现状和趋势。,了解,Python,的发展历史与语言特征，掌握版本的选择。,掌握,Python,发行版,Anaconda/Miniconda,的部署、交互式运行环境,NoteBook,和集成开发环境,Spyder,的安装。,了解,Numpy,、,Pandas,、,Scipy,、,Matplotlib,、,Scikit-Learn,等数据挖掘相关程序包及其安装方法。,本章学习目标掌握数据挖掘的定义、数据挖掘算法分类。,需求背景,大数据处理技术、数据挖掘算法正在不断地向各行各业渗透，极大地改变了行业竞争格局、企业营销模式和用户消费习惯。,不管是传统的银行、保险、证券等金融机构，还是新兴的从事网贷、众筹等业务的互联网金融机构，都在积极、快速、主动地接受算法和技术带来的变化和挑战，抓住它们带来的机遇。,需求背景大数据处理技术、数据挖掘算法正在不断地向各行各业渗透,01,数据挖掘的概念,01数据挖掘的概念,数据挖掘是数据库知识发现（,Knowledge Discovery in Databases,，,KDD),中的一个重要步骤。,数据挖掘是指从大量数据中通过算法搜索隐藏于其中的有效信息的过程。,数据挖掘基于计算机科学、数学等相关的理论方法和技术手段，通过数据采集、关系化存储、高速处理等手段，对采集到的数据进行应用统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法，对已经预测或者推测出的规律进行验证，进而对还未发现的、隐藏的规律进行自动归纳、总结和发现。,数据挖掘是数据库知识发现（Knowledge Discove,数据挖掘算法一般以大数据为基础。大数据的特点通常可以概括为,4V,：,总价值高,/,单位价值低（,Value,）：大数据具有单位价值低的特点，其中价值密度的高低与数据总量的大小成反比。以视频为例，一部,1,小时的视频，在连续不间断的监控中，有用数据可能仅有一二秒，但是这一二秒的数据，往往有着非常重大的价值。如何通过强大的机器学习和数据挖掘算法迅速地完成数据的价值“提纯,”,，是目前大数据背景下被广泛关注的热点问题。,体量大（,Volume,）：从,2013,年至,2020,年，人类的数据规模将扩大,50,倍，每年产生的数据量将增长,44,万亿,GB,，相当于美国国家图书馆数据量的数百万倍，且每,18,个月翻一番。,速度快（,Velocity,）：随着现代检测、互联网、计算机技术的发展，数据生成、储存、分析、处理的速度远远超出人们的想象，这是大数据区别于传统数据或小数据的显著特征。,种类多（,Variety,）：大数据与传统数据相比，数据来源更广、维度更高、类型更复杂。相对于以往便于存储的、以文本为主的结构化数据，非结构化数据越来越多，常见的非结构化数据包括网络日志、音频、视频、图片、地理位置等信息，这些多型的数据对数据的处理能力提出了更高要求。,数据挖掘算法一般以大数据为基础。大数据的特点通常可以概括为4,目前，针对大数据的数据挖掘应用既扎根于数据库、数据仓库的海量数据处理等基础的信息处理技术，又覆盖了机器学习、模式识别、信息检索、可视化、算法、高性能计算等新兴交叉学科前沿领域，还快速渗透进了智能商务、交通、教育、金融等社会生产生活领域。一系列与之相关的技术与应用，正在成为社会关注的热点、科技研究的焦点和产业发展的重点。,现有数据挖掘技术与应用需求还存在着诸多矛盾，例如：采集、传输、存储技术与数据生成速度之间的矛盾；数据类型、格式要求与异构数据源之间的矛盾；理论假设、算法设计与实际实施之间的矛盾；实验结果与应用效果之间的矛盾；评价指标与算法可解释性之间的矛盾；规则发现、模式识别与隐私保护之间的矛盾这些矛盾，正是数据挖掘领域需要解决的重点和难点问题。随着数据挖掘技术的不断发展，这些矛盾的不断解决，数据挖掘技术将会发挥出更大的作用、贡献出更大的价值。,目前，针对大数据的数据挖掘应用既扎根于数据库、数据仓库的海量,常见的数据挖掘算法可归结为以下四个方面,：,1,关联分析：旨在找出所有能把一组事件或数据项与另一组事件或数据项联系起来的强关联规则（,拉关系,）。例如，如果你今天在淘宝或京东等大型电商平台购买了手机，那么你明天登录网站的时候，很可能会购买手机套、充电器、数据线等和手机使用相关的产品。,Apriori,算法是典型的关联分析算法。,2,数据分类：分类是指通过对数据集的学习获得一个映射函数，从而将未知类别的样本映射到给定类别中（,贴标签,）。例如，在银行的历史信用卡数据中，有按时还款的正常客户，也有不能按时还款的逾期客户。银行希望通过用户的基础信息及历史交易数据等，判断其是正常客户还是逾期客户（这个就是分类标签），从而提前甄别出逾期客户，以尽可能地降低逾期发生率。分类算法通常包括训练（即生成分类函数）和识别（即样品归类）两个阶段，典型的分类算法包括决策树、贝叶斯、神经网络、支持向量机等。,常见的数据挖掘算法可归结为以下四个方面：,3,数据聚类：聚类旨在将数据集内具有相似特征的数据聚集成簇，从而使得同一个簇的数据特征尽可能相似，不同簇中的数据特征有明显的区别（,找朋友,）。聚类和分类算法的区别在于：分类任务中的训练数据集是有标签的，比方说正常,/,逾期，好,/,坏，,Yes/No,，,True/False,等，而聚类任务中的数据集则没有标签，只是根据特征的相似性将数据集聚集成不同的簇。比方说携程、去哪儿就会根据用户历史消费记录进行用户画像，总结出某一群体的共性，从而决定推荐的住宿酒店的档次、位置等属性。典型的聚类算法包括,K,均值聚类、,K,中心点、神经网络聚类算法等。,4,时间序列分析：是根据数据过去和现在的变化规律去预测未来发展趋势的一种数据分析技术（,测未来,）。时间序列分析任务一般是针对那些与时间变化相关的指标，算法的目标是发现它随时间变化的趋势，从而能够进行预测。在金融相关的宏观经济运行研究和管理工作中，经常要使用这时间序列分析来预测国民生产总值,GDP,，消费价格指数,CPI,等指标的变动情况。常见的时间序列分析算法主要包括简单移动平均、复杂差分整合移动平均、自回归等。,3数据聚类：聚类旨在将数据集内具有相似特征的数据聚集成簇，,以信用卡申请核发的业务为例，银行已经积累了大量客户的申请信息、消费记录和是否正常还款的历史数据，现在想以这些数据为基础，研发一套数据挖掘系统，用于在核准新用户申请办理信用卡期间的决策支持。具体的步骤如下：,1.,将人工核准流程转换为计算机的处理流程。,2.,选择一个合适的数据挖掘算法。这是一个典型的分类问题，训练数据中的,标签,是正常还款和逾期还款，特征是用户还款的信息。希望能够使用老用户的申请信息来预测一个新客户是否会按时还款。,3.,模型的训练。将历史数据处理成算法能接受的数据格式后输入到算法中，生成预测函数。算法的输入数据（称为训练数据）是用户的申请信息或消费记录，输出结果是正常还款或逾期还款。,4.,调整预测函数的参数，优化预测性能。,5.,将预测函数用于后期预测，输入新用户信息，获得预测结果，即正常还款或逾期还款。,以信用卡申请核发的业务为例，银行已经积累了大量客户的申请信息,02,金融数据挖掘的意义和应用,02金融数据挖掘的意义和应用,国内的金融数据挖掘应用，主要的推动力有两个方面：,一是银行、保险和证券等传统金融机构积极拥抱金融科技的变革，利用数据挖掘技术来改进、提升、完善、丰富金融服务手段。最典型的案例是，,2018,年底中国平安集团更换了集团,LOGO,，将旧,LOGO,中的“保险,银行,投资”文字改成新,LOGO,中的“金融,科技”，凸显了全面转向金融科技服务的决心和战略。,二是以阿里、腾讯为代表的互联网行业巨头凭借在移动互联网用户粘性、人工智能处理技术方面的优势，纷纷涉足个人和小微企业的金融服务。典型案例是阿里系的芝麻信用、腾讯系的腾讯征信成为了中国人民银行监管指导下的百行征信有限公司的创始股东，这充分说明了政府监管部门认可了支付宝和微信钱包在个人金融消费和信用记录方面所占据的重要地位。,基于数据挖掘技术的金融业务活动，是先进信息技术与金融相结合的重要产物。宏观上，它可以发现、预测、规避系统性的金融风险；可以发掘、拓展、培育新的金融业务类型。微观上，它可以评估、监测、预警个体信用风险；可以开发、获取、维护新的客户资源。,国内的金融数据挖掘应用，主要的推动力有两个方面：基于数据挖掘,金融数据和数据挖掘算法的结合正面临着前所未有的机会和挑战，主要表现在：,1.,创新了业务型态。,通过数据挖掘技术，可以对个人用户和小微企业进行量化的信用评估，从而提供定制化的信贷服务。离开了基于大数据的人工智能技术，这种业务很难开展。,2.,提升了服务效率。这,包含两个方面的含义：一方面新的业务型态必将吸引更多的新客户，业务拓展效率更高；另一方面借助人工智能技术，一线服务人员处理的业务量增加了，业务处理效率得到进一步提高。,3.,改善了服务质量。,通过数据挖掘的关联规则推荐、时间序列分析等技术，可以主动预测客户潜在需求，从而提升用户感受。,金融数据和数据挖掘算法的结合正面临着前所未有的机会和挑战，主,目前，数据挖掘在金融行业的比较典型的应用包括产品客户开发、风险评估控制、客户业务管理、客户延伸服务和业务合规监管等。,1.,产品客户开发,通过探索性的数据挖掘方法，如自动探测聚类和购物篮分析，可以找出客户数据库中的特征，预测银行营销活动的响应率。那些被定为有利的特征可以与新的非客户群进行匹配，以增加营销活动的效果。,数据挖掘还可从银行数据库存储的客户信息中，根据事先设定的标准找到符合条件的客户群，也可以将客户进行聚类分析，通过对客户的服务收入、风险、成本等相关因素的分析、预测和优化，找到新的可赢利目标客户。,目前，数据挖掘在金融行业的比较典型的应用包括产品客户开发、风,2.,风险评估控制,以个人信贷和小微企业贷款为代表，基于数据挖掘技术的风险控制贯穿于贷前、贷中和贷后各个阶段。规则引擎是贷前阶段欺诈检测和信用评估的第一个环节，数据挖掘模型则是第二个环节。简单来说，规则引擎是复杂业务下的决策框架，包含了大量预先设定好的规则。数据输入后，规则引擎解释规则并做出业务决策。在欺诈检测或者信用评估中，规则引擎通过大量预先设定好的信息校验或条件判断来得到有益的结论。在基于大数据的风控领域，规则引擎设定的信息校验或条件判断往往达到数百条甚至更多。当借款人通过规则引擎的欺诈检测后，则进入下一环节，运用数据挖掘算法进一步评估信用状况。其基本思路为：对海量数据进行有效组织和预处理，利用机器学习算法，深度挖掘出与网络个人信贷信用评估相关的指标，构建区分能力较强、稳定性较好且具有较好业务解释性的模型。常见的机器学习算法包括决策树、贝叶斯网络、逻辑回归、深度学习、支持向量机、随机森林等。,2.风险评估控制,3.,客户业务管理,客户业务管理包括现有客户的贷后管理和流失预警等。贷款偿还风险相关的因素包括贷款率、贷款期限、负

展开阅读全文

《Python金融数据挖掘》-ppt课件第1章

最新文档