Hadoop数据挖掘工具Mahout

资源描述

q Mahout简介q 数据挖掘基础课程目标课程目标MahoutMahout数据金字塔数据金字塔数据统计分析数据统计分析数据挖掘数据挖掘q 数据挖掘是从大量数据中提取或“挖掘”知识q 数据挖掘思想来源：假设检验，模式识别，人工智能，机器学习q 数据挖掘涉及多学科技术的集成，包括数据库技术、统计、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息提取、图象与信号处理和空间数据分析数据挖掘系统的组成数据挖掘系统的组成q 数据库、数据仓库、或其它信息库q 数据库或数据仓库服务器q 知识库q 数据挖掘引擎q 模式评估模块q 图形用户界面数据挖掘常用方法数据挖掘常用方法q 数据挖掘任务可以分两类：描述和预测q 特征分析从数据库中的一组数据中提取出关于这些数据的特征式，这些特征式表达了该数据集的总体特征q 关联规则描述数据库中数据项之间所存在的关系的规则q 变化和偏差分析偏差分析是探测数据现状、历史记录或标准之间的显著变化和偏离偏差包括很大一类潜在有趣的知识，如分类中的反常实例，模式的例外，观察结果对期望的偏差等q 分类和预测q 回归分析q 聚类q 数据挖掘常用方法q 数据分析工具q Mahout支持的算法课程目标课程目标回归分析回归分析q 回归分析方法反映的是事务数据库中属性值在时间上的特征q 步骤：确定变量-建立预测模型-进行相关分析-计算预测误差-确定预测值分类器分类器q 找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类q 分类预测的方法训练：训练集特征选取训练分类器分类：新样本特征选取分类判定q 常用算法：决策树、KNN法、SVM法、VSM法、Bayes法、神经网络聚类聚类q 把一组数据按照相似性和差异性分为几个类别q 常见算法：K-means聚类，K-medoid聚类、GMM、层次聚类等聚类聚类q GMM 将k个高斯模型混合在一起，每个点出现的概率是几个高斯混合的结果层次聚类层次聚类q 假设有N个待聚类的样本，对于层次聚类来说，基本步骤就是：1、（初始化）把每个样本归为一类，计算每两个类之间的距离，也就是样本与样本之间的相似度 2、寻找各个类之间最近的两个类，把他们归为一类（这样类的总数就少了一个）3、重新计算新生成的这个类与各个旧类之间的相似度 4、重复2和3直到所有样本点都归为一类，结束q 整个聚类过程其实是建立了一棵树，在建立的过程中，可以通过在第二步上设置一个阈值，当最近的两个类的距离大于这个阈值，则认为迭代可以终止。常用数据挖掘算法分类常用数据挖掘算法分类q 数据分析工具q 常见算法的Map-Reduce化q Mahout的起源和特点课程目标课程目标频繁模式挖掘频繁模式挖掘数据分析工具数据分析工具常用传统数据分析工具排行常用传统数据分析工具排行传统数据分析工具的困境传统数据分析工具的困境q R，SAS，SPSS等典型应用场景为实验室工具q 处理数据量受限于内存，因此无法处理海量数据q 使用Oracle数据库等处理海量数据，但缺乏有效快速专业的分析功能q 可以采用抽样等方法，但有局限性，比如对于聚类，推荐系统则无法使用抽样q 解决方向：Hadoop集群和Map-Reduce并行计算常见算法的常见算法的Map-ReduceMap-Reduce化化常见算法的常见算法的Map-ReduceMap-Reduce化化MahoutMahout起源起源q Apache Mahout起源于2008年，当时是Apache Lucene的子项目q 使用Hadoop库，可以将其功能有效地扩展到Apache Hadoop云平台q Apache Lucene是一个著名的开源搜索引擎，实现了先进的信息搜索、文本挖掘功能q 一些Apache Lucene的开发者最终转而开发机器学习算法，这些算法也就形成了最初的Apache Mahoutq Mahout不久又吸收了名为Taste的开源协同过滤算法的项目q 2010年4月Apache Mahout最终成为Apache的顶级项目MahoutMahout特点特点q Mahout的主要母的是实现针对大规模数据集的可伸缩的机器学习算法（就是算法的M-R化）q Mahout的算法运行在Hadoop平台下，通过MapReduce模式实现。q 但并不严格要求算法的实现基于Hadoop平台，单个节点或非Hadoop平台也可以q 目标是帮助开发人员快速建立具有机器智能的应用程序q 目前比较成熟和活跃的主要包括聚类分类推荐引擎频繁项集的挖掘MahoutMahout算法集算法集算法类算法类算法名算法名中文名中文名分类算法Logistic Regression逻辑回归 Bayesian贝叶斯 SVM支持向量机 Perceptron感知器算法 Neural Network神经网络 Random Forests随机森林 Restricted Boltzmann Machines有限波尔兹曼机聚类算法Canopy ClusteringCanopy聚类 K-means ClusteringK均值算法 Fuzzy K-means模糊K均值 Expectation MaximizationEM聚类（期望最大化聚类）Mean Shift Clustering均值漂移聚类 Hierarchical Clustering层次聚类 Dirichlet Process Clustering狄里克雷过程聚类 Latent Dirichlet AllocationLDA聚类 Spectral Clustering谱聚类关联规则挖掘Parallel FP Growth Algorithm并行FP Growth算法回归Locally Weighted Linear Regression局部加权线性回归降维/维约简Singular Value Decomposition奇异值分解 Principal Components Analysis主成分分析 Independent Component Analysis独立成分分析 Gaussian Discriminative Analysis高斯判别分析进化算法并行化了Watchmaker框架推荐/协同过滤Non-distributed recommendersTaste(UserCF,ItemCF,SlopeOne）Distributed RecommendersItemCF向量相似度计算RowSimilarityJob计算列间相似度 VectorDistanceJob计算向量间距离非Map-Reduce算法Hidden Markov Models隐马尔科夫模型集合方法扩展Collections扩展了java的Collections类q Apache Mahout优点q Mahout安装q Mahout测试课程目标课程目标Apache MahoutApache Mahout优点优点q 技术社区活跃q 良好的扩展性和容错性q 文档化好，实例丰富q 100%源代码开源q 易于使用MahoutMahout安装安装q 下载：http:/ 上传并解压MahoutMahout安装安装q 环境变量配置，修改.bashrc，添加如下内容：q 使配置生效$source.bashrcq 几个重要的环境变量JAVA_HOMEMAHOUT_JAVA_HOMEHADOOP_CONF_DIRMAHOUT_LOCALMAHOUT_CONF_DIRMAHOUT_HEAPSIZEMahoutMahout安装安装q 验证安装MahoutMahout测试测试q 下载测试数据$wget http:/archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.dataq 启动hadoop集群$start-dfs.sh$start-mapred.shq 上传测试数据到HDFS$hadoop fs-mkdir testdata$hadoop fs-put synthetic_control.data testdataMahoutMahout测试测试q 运行k-means算法$mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job启动12个MapReduce Job任务Thanks34 结束语结束语

展开阅读全文

Hadoop数据挖掘工具Mahout

最新文档