项目汇报4-datax配置.pptx

上传人:zhu****ei 文档编号:5435895 上传时间:2020-01-29 格式:PPTX 页数:13 大小:278.23KB
返回 下载 相关 举报
项目汇报4-datax配置.pptx_第1页
第1页 / 共13页
项目汇报4-datax配置.pptx_第2页
第2页 / 共13页
项目汇报4-datax配置.pptx_第3页
第3页 / 共13页
点击查看更多>>
资源描述
DataX是一个在异构的数据库 文件系统之间高速交换数据的工具 实现了在任意的数据处理系统 RDBMS Hdfs Localfilesystem 之间的数据交换 DataX的用途 目前成熟的数据导入导出工具比较多 但是一般都只能用于数据导入或者导出 并且只能支持一个或者几个特定类型的数据库 这样带来的一个问题是 如果我们拥有很多不同类型的数据库 文件系统 Mysql Oracle Rac Hive Other 并且以后每增加一种库类型 我们需要的工具数目将线性增长 这些工具有些使用文件中转数据 有些使用管道 不同程度的为数据中转带来额外开销 效率差别很非常大 很多工具也无法满足ETL任务中常见的需求 比如日期格式转化 特性字符的转化 编码转换 另外 有些时候 我们希望在一个很短的时间窗口内 将一份数据从一个数据库同时导出到多个不同类型的数据库 DataX正是为了解决这些问题而生 使用之前 使用datax之后 DataX的架构 DataX的架构 DataX框架内部通过双缓冲队列 线程池封装等技术 集中处理了高速数据交换遇到的问题 提供简单的接口与插件交互 插件分为Reader和Writer两类 基于框架提供的插件接口 可以十分便捷的开发出需要的插件 比如想要从oracle导出数据到mysql 那么需要做的就是开发出OracleReader和MysqlWriter插件 装配到框架上即可 并且这样的插件一般情况下在其他数据交换场合是可以通用的 Datax的安装配置 安装配置ant 解压后配置环境变量ANT HOME同时将ANT HOME bin添加到PATH安装配置mysql yuminstallmysql server 安装完成后执行mysqladmin urootpassword root grantallprivilegeson topeter localhost identifiedby peter withgrantoption createdatabasexdata usexdata createtabletest datax user idint user namevarchar 30 insertintotest dataxvalues 111 peterlee insertintotest dataxvalues 111 peterlee insertintotest dataxvalues 111 peterlee 安装配置hadoop配置core site xmlhdfs site xmlmapred site xml 最基本配置 网上一search一大把 安装编译datax从淘宝的开源svn上checkout一份代码svncohttp code taobao org svn datax trunkdatax用当前系统hadoop中的hadoop core xxxx jar替换下面的jar包在datax rpm下面有spec文件 rpm打包的配置文件rpmbuild baXXXXX spec 例如 t dp datax engine spec 按照datax官方编译文档安装安装完成后在datax bin目录下执行pythondatax py etrue生成一个job配置文件XXXXXXXXXXXXXX xmlptyhondatax py home peter datax jobs XXXXXXXXXXX xml Sqoop和datax的比较 两者从原理上看有点相似 都是解决异构环境的数据交换问题 都支持oracle mysql hdfs hive的互相交换 对于不同数据库的支持都是插件式的 datax架构图 Sqoop架构图 Datax和sqoop的比较 DataX直接在运行DataX的机器上进行数据的抽取及加载 而Sqoop充分里面了map reduce的计算框架 Sqoop根据输入条件 生成一个map reduce的作业 在Hadoop的框架中运行 从理论上讲 用map reduce框架同时在多个节点上进行import应该会比从单节点上运行多个并行导入效率高 而实际的测试中也是如此 测试一个Oracletohdfs的作业 DataX上只能看到运行DataX上的机器的数据库连接 而Sqoop运行时 4台task tracker全部产生一个数据库连接 调起的Sqoop作业的机器也会产生一个数据库连接 应为需要读取数据表的一些元数据信息 数据量等 做分区 Sqoop现在作为Apache的顶级项目 还有很多第三方的插件 DataX好久没更新了 文档也不齐全 另外一点Sqoop采用命令行的方式调用 比如容易与我们的现有的调度监控方案相结合 DataX采用xml配置文件的方式 在开发运维上还是有点不方便 谢谢
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!