DATASTAGE的介绍及基本操作.ppt

上传人:xiao****1972 文档编号:6277059 上传时间:2020-02-21 格式:PPT 页数:133 大小:2.98MB
返回 下载 相关 举报
DATASTAGE的介绍及基本操作.ppt_第1页
第1页 / 共133页
DATASTAGE的介绍及基本操作.ppt_第2页
第2页 / 共133页
DATASTAGE的介绍及基本操作.ppt_第3页
第3页 / 共133页
点击查看更多>>
资源描述
DATASTAGE介绍及基本操作 内容提要 一 datastage介绍二 如何安装datastage三 配置datastage工程四 设计并运行datastage的job五 操作元数据六 操作关联数据七 操作约束条件及数据来源八 定义查找使用的哈希文件九 聚合数据十 job的运行及调试十一 创建Basic表达式 一 datastage的介绍 本章主要讲解ETL的概念 datastage的介绍 组成及主要功能 ETL概要 ETL包括数据抽取 Extract 数据转换 Transform 以及数据加载 Load 3个阶段 一般而言 这三个过程中有二次落地 生成中间文件 AscentialDataStage是一套专门对多种操作数据源的数据抽取 转换和维护过程进行简化和自动化 并将其输入数据集市或数据仓库目标数据库的集成工具 DataStage能够处理多种数据源的数据 包括主机系统的大型数据库 开放系统上的关系数据库和普通的文件系统 包括Oracle Sybase DB2 SQLServer Teradata FTP文件系统 文本文件等等 数据清洗 转换 加载都可以在图形化工具里完成 同样可以灵活的被外部系统调度 提供专门的设计工具来设计转换规则和清洗规则等 实现了增量抽取 任务调度等多种复杂而实用的功能 DS介绍 Datastage的组成 Datastage的服务器端和客户端 Datastage是C S软件 服务器端存储所有的ds项目和元数据 由关系型数据库 RDBMS 组成 客户端具有同服务端一样的软件接口 客户端运行于windows95或更高版本 服务端可运行于windowsNT4 0或windows2000版本 datastage的很多版本都支持unix DSAdministrator在服务端管理ds的项目和服务端操作 主要用于工程的参数调整 变量设置 及command操作 DSDesigner建立ds的job并且编译执行的程序 主要用于job的开发及编译 DSDirector运行和监控ds的job 主要用于job调试 DSManager允许编辑和查看在ds中存储的内容 主要用于项目管理或job的导入 导出 备份 DataStage中的Administrator 默认使用Administator来指定常规的服务端 用来增加或删除DataStage工程 并且可以设置工程的属性 Administator也对于总库提供命令接口 使用Administator的 ProjectPropertities 工程属性的窗口 可以进行1 在 General 页框中 设置Job监控的一些限制信息和Director中的其他信息 2 在 Permission 页框中 设置并分配开发人员组的权限 3 在 Tracing 页框中 设置或取消服务端进行跟踪 4 在 Schedule 页框中 设置调度时运行Job所用到的用户名和口令 5 在 Tunables 页框中 指定Hash文件Stage的读写的缓存大小 在DataStage中的Administrator设置常用服务器的默认值 1 改变Licence信息 2 设置服务端连接超时时间 DataStage中的Manager 使用DataStage中的Manager来存储和管理Job的元数据 使之可以在DataStage中的Designer中再度被使用 元数据包括表单和文件结构和导出数据的Routines的转换等等 Manager是DataStage存储的一个重要的部分 可以用来加入表单和文件的结构 在左侧分支树中显示Routines Transforms和Jobs 自定义的Routines和Transforms也在DataStage中的Manager里创建 DataStage中的Designer DataStage中的Designer允许使用熟练地拖拽图标和连线的方式来表示数据抽取 清洗 转换 整合和加载的过程 并将数据导入数据仓库的表单之中 Designer提供一个数据流程的模式 轻松将设置和Job的设计有机的组成 使用Designer 可以 1 指定数据如何抽取 2 指定数据的转换规则和进行转换 3 使用参考性质的LookUp到数据集市中编辑数据 a 例如 如果销售的记录集包括CustomerID 可以在CustomerMaster表中使用LookUp查找到Customer的名称 b 当需要连接数据集市并使用查询 可以快速的进行访问 4 对数据进行整合 5 在定义的约束条件中将基础数据分割成为多个输出的连接 在Tools菜单中可以轻松的于Director Designer和Manager之间切换 DataStage中的Director 使用Datastage的Director可以对设计的job进行验证 运行 任务调度和监控的工作 也可以针对job的运行查看运行的聚合统计情况 在Datastage中进行开发 在Administrator中定义全局的和项目属性 在Datastage中的Manager里导入定义源的元数据和目标的元数据 在Datastage中的Designer中验证和编译job 在Datastage中的Director中验证 运行 和监控job 1 定义工程的属性 在Administrator中 2 打开工程 3 导入元数据 在job中定义格式 读入或写入 在Manager中 4 设计job 在Designer中 a 定义数据的抽取 读取 b 定义数据流程 c 定义数据的集合 d 定义数据的转换 e 定义数据的约束条件 f 定义数据的加载 写入 g 定义数据的聚合 5 编译和调试job 在Designer中 6 运行和监控job 在Director中 Datastage的工程管理 所有的工作都在一个工程中 在安装过后 需要建立一个工程 这是安装必选的项目 在使用它工作之前 要登录这个工程 可以在工程间进行导入和导出Datastage的项目内容 多个用户可以在同一时间使用同一工程 但是不能同时编辑同一个项目 所有的工作都在Datastage的工程里进行 在做任何事之前 那些具有同样管理权限的人 都要先打开一个工程 即进行登录 在安装过程中 工程就要求创建 这是必须做的事情 可以在安装之后 在Administrator中的Project页框中另增加其它工程 一个工程关联着一个目录 这个工程目录用来存储jobs Datastage项目和元数据 在做任何操作前都要先打开这个工程 即登录这个工程 工程是自包含的很多的工程可以在同一时间被打开 在各自单独的环境打开 可以在它们之间导入或导出项目 多用户可以在同一时间使用一个工程中工作 但是Datastage禁止在同一时间由多个用户访问同一个job Datastage测试 问题一 Datastage的Designer是用来建立和编译job 用来进行数据的抽取 转换和加载即ETL Yes No 答案一 Yes Designer使用拖拽的方式将设计元素 习惯上叫stage 拖拽到设计区域中 经过建立和编译 Job就可以执行 用来进行数据的抽取 转换和加载 问题二 Datastage的Manager用来执行编译通过的Jobs Yes No 答案二 No Datastage的Manager是用来管理元数据的 如表单结构 内置和自定义Routines等的 使Datastage用来管理资源存储的 问题三 Datastage的Director用来执行编译通过的Jobs Yes No 答案三 Yes 使用Director来对编译通过的job进行验证或者运行 也可以在jobs运行过程中对其进行监控 问题四 Datastage的Administrator是用来定义全局变量和设置工程属性的 Yes No 答案四 Yes 可以在Administrator中设置工程中使用的全局变量和必要属性 如连接数据库超时 登录者权限等等 第二章如何安装Datastage 下面的讲解中 将可以了解到 在Windows系统中安装Datastage服务端 建立一个Datastage的工程 安装Datastage的客户端 1 注册号 序列号 2 工程数量 在Datastage服务端可以建立的最大工程数量 包括新建的工程 也包括对先前建立的工程进行加上升级 3 到期时间 4 授权代码 在许可信息中 这个信息必须被正确输入的 安装向导会指导通过以下步骤进行 1 输入许可信息 2 指定服务器的路径 3 选择程序的文件夹 4 创建一个新的工程或升级已经存在的工程 安装Datastage 首先安装DatastageServer端 鼠标点击软件会自动安装 安装过程中系统提示使用者选择安装路径和输入产品序列号 在DatastageServer安装的过程中会提示用户建立一个工程 在安装DatastageServer端以后 需要安装DatastageClient端 鼠标点击软件会自动进行安装 安装过程中系统提示使用者选择安装路径和输入产品序列号 安装有Datastage服务端的机器 必须运行着 需要运行Datastage的客户端 打开Datastage的控制面板 来停止或启动服务端 当再次安装Datastage的时候 会停止服务端 为了保证Datastage客户端程序的正常运行 必须保证Datastage的服务器保持运行状态 在Windows2000的控制面板中打开Datastage的控制面板 可以启动或停止全部的Datastage服务 点击可以启动全部的服务或者停止全部的服务 在安装或重新安装Datastage的时候 这些服务一定要全部停止 安装Datastage客户端 在安装Datastage服务端之后 可以安装在WinNT Windows2000以及WinXP上 Datastage产品的许可用于安装Datastage的客户端 Datastage的操作许可只能用于安装Director和Administrator Datastage的客户端必须在Datastage的服务端安装过后才可以进行安装 客户端能够安装在Windows95 Windows98 WindowsNT Windows2000以及WindowsXP操作系统上 这里有俩个版本的Datastage 1 开发版本的Datastage 包含了解所有的客户端应用程序 2 操作员版本的Datastage只包含了需要用到的运行和监控Job的应用程序 即Director和Administrator 安装开发版本的Datastage 需要有Datastage开发版的许可 安装操作员版本的Datastage 需要有Datastage的Director的许可 许可包括以下几个信息 1 序列号2 用户限制3 到期时间4 授权认可代码这些信息必须是正确的数据 第三章配置Datastage工程 下面的讲解中 将可以了解到 在Datastage的Administrator中设置工程属性 在Datastage的Administrator中设置用户的权限 Datastage工程属性 建立或者删除Datastage工程 设置Datastage工程的默认属性 修改Datastage工程属性的方法 登录Datastage的Administrator 选择要修改属性的工程 Datastage中所有的开发工作都在一个Datastage的工程中 在安装Datastage服务端时 默认就已经建立了一个工程 可以使用Administrator进行工程的控制 每个工程都有其关联的目录 目录存储了在工程中建立的项目 如Jobs 元数据 自定义的Routines等等 在一个工程中工作之前 必须要先打开它 即进行登录 在使用Datastage的Administrator时 可以设置默认的工程属性 设置Datastage工程属性 选择要进行修改的工程 点击 Properties 工程属性的 General 页框 点击Datastage的Administrator的 Properties 按钮 打开工程属性的窗口 这里有5个页框 Mainframe 页框只有在许可支持大型机的Jobs的时候可用 默认打开的 General 页框 如果选择 EnablejobadministratorinDirector 的选择项 那么在不打开Administrator的情况下在Datastage的Director中可以运行一些管理级别的函数 在Director中运行一个Job的时候 事件被写入Jobs的运行的日志 例如 记录了何时开始运行Jobs 何时停止 何时终止 日志记录的事件增长量很大 Auto purpeofjoblog 选择框可以让指定用什么条件来筛选这些事件 可以限制记录时间的每天的数量或者运行Jobs运行的数量 工程属性的 Permissions 页框 使用这个页框可以设置访问和使用Datastage的用户组权限 所有的Datastage用户中 在登录Datastage之前 都必须拥有一个公认的 属于自己的用户角色 使之用来进行登录 这样可以用来防止匿名的方式使用Datastage工程 这里有三种Datastage用户角色 1 DatastageDeveloper 可以访问Datastage工程全部的范围 2 DatastageOperator 可以运行 释放 Datastage的Jobs 3 DatastageProductionManager 可以管理Datastage产品组件 工程属性的 Tracing 页框 在这个页面设置是否在Datastage服务端进行跟踪处理 Datastage服务端进行跟踪处理默认是无效的 当使其有效 Datastage客户端运行项目的时候 所有的记录信息都要在Datastage服务端进行监控 并写入监控文件 使用这些底层系统知识可以帮助找到Datastage客户端的问题所在 如果跟踪设置为有效 当调用一个Datastage的客户端的时候 用户会收到一些警告的信息 警告 跟踪会消耗Datastage服务器大量的系统资源 除非用户需要诊断重大的问题 一般不建议设置跟踪有效 工程属性的 Schedule 页框 使用 Schedule 页框 来指定在选择的项目中运行计划任务的jobs的用户名和口令 如果没有指定 Jobs会在当前系统的计划任务的用户名下运行 工程属性的 Tunables 页框 在 Tunable 页框中 可以指定当用来读取Hash文件记录时的缓存的大小 Hash文件大多数用于查找操作 这部分介绍会在下面的介绍中进行 第四章设计并运行Datastage的Job 下面的讲解中 将可以了解到 描述什么是Datastage的Job 一步步讲述如何建立DatastageJob 描述Link和Stage 识别不同类型的Stage 设计一个简单抽取和加载的Job 编译 验证和运行Job 监控Job的执行 什么是Job Job开发的浏览 在Manager 导入数据源和目标数据库的数据结构定义 在Designer 加入Stage定义数据的抽取和加载 加入Transformer和其它的Stage来定义转换 从源数据到目的数据 加入Link来定义数据的流向 编译Job 在Director中 验证 运行和监控Job 在这个讲解中 将通过一个单一Job的过程第一步 着手定义元数据 Designer的工作区域 中间偏右是Datastage的设计区域 可以将Stage和Link从工具的板块上拖动过来放在上面 左边是 Repository 存储 窗口 显示的是Manager中的分支 Manager中的分支 就像Jobs和表定义一样可以直接拖拽到设计区域 点击 View Repository 来显示 Repository 窗口 点击 View PropertyBrowser 来显示 PropertyBrowser 窗口 显示在设计区选择的项目的属性 Designer的工具栏 工具栏中的一些图标可以快捷的调用一些Datastage的内部函数 更加方便进行Jobs的设计工作 Designer的Stage工具面板 工具面板中包含描述的图标 可以将其加入到Jobs设计当中 当安装Datastage的时候 很多的Stage都会自动地进行安装 也可以根据特定的目的安装另外的Stage 这些被叫做插件 例如 那个叫做 Sort 的插件就是用来对数据排序的 插件的介绍将在以后的讲解来介绍 下面将部分的Stage进行简单的说明 有些Stage在普通应用中并不常用 被动Stage和主动Stage 被动Stage的定义是用来读写数据源的Stage 被动Stage包括 Sequential Odbc Hash文件的Stage 主动Stage的定义是用来数据的筛选和转换部分的Stage 主动Stage包括 Transformer Aggregator和Sort的插件 这里有俩种类型的Stage 被动Stage 是用来读写数据源的数据的 包括Sequential Odbc Hash文件的Stage 等等 主动Stage 是用来筛选和转换部分的Stage 包括Transformer Aggregator和Sort的插件 等等 Datastage测试 问题一 SequentialStage是一个主动地Stage Yes No 答案一 No 由于SequentialStage可以用于读取数据源和写入数据 但是又不能对数据进行转换 所以不是主动的Stage 而是被动的Stage SequentialStage 导出数据或加载数据到一个Sequential文件 为Sequential指定完整的路径 指定文件的格式 定义宽度或者分隔符 指定列的定义 指定写的形式 覆盖 追加 Sequential文件时用来从一个Sequential文件导出或者加载到一个Sequential文件中 在修改Sequential文件的时候需要指定一下内容 1 文件的路径和名称 2 文件的格式 3 列的定义 4 如果SequentialStage被用作一个目标的话 指定写入动作时选择 覆盖已存在的文件或者在文件基础上进行追加 编辑目标端的一个Sequential文件Stage 定义一个Sequential的目标Stage类似于定义一个源的SequentialStage 在输入的Link中 定义数据导入到Stage的数据格式 从 InputBox 中输入Link的列表进行选择 定义一个文件的Job 定义文件被写入 如果文件不存在 Datastage将会自动建立 在 Updateaction 中指定数据文件是否覆盖或者追加 General 页框中的 FilterCommand 可以指定一个过滤程序 可以使用其在抽取数据的过程中进行数据的过滤 举例 在读取数据之前要有一个解压缩的过程 从中选择类型或者浏览从过滤程序中 在输入框中指定命令行 只有在 General 页框中的Stage页面中选择了 Stageusesfiltercommands 的选择框 这个输入框变为可用 如果指定了过滤命令 数据浏览没有定义 那么 ViewData 按钮不可用 在 Format 页框中 指定不同格式的目标文件 同指定源文件相同 如果目标文件不存在 在Jobs运行之后 才可以浏览数据 如果这时点击了 ViewData 按钮 Datastage将会返回一个 FailedtoOpen 的错误 在源数据的Stage里定义输出数据的列定义 同时定义目标Stage中的相应的输入Link 可以将Link想象成为一个通道 从一头流到另外一头 所以输入和输出的格式要保持一致 TransformerStage 很关键的主动Stage 使用TransformerStage可以定义条件 来源和字段的对应关系 输入的列和输出的列进行对应 在这个讲解中 我们将定义列的对应 TransformerStage是一个重要的主动Stage 其它主动地Stage执行很多指定类型的转换 在TransformerStage中可以指定 1 列的对应 2 数据的来源 3 过滤条件 字段对应是指输入字段和输出字段进行对应 从输入列到输出列数值直接通过 数据来源的值经过计算写入到输出的列 以输入列为基础 在引入的行将被写入到输出的列 约束指定的条件将有效 TransformerStage元素 Transformer有以下元素 在上方 左边的区域显示输入Link的列信息 如果有很多的输入Link 就会有许多的列显示 在上方 右边的区域显示的输出Link的内容 我们不能在这里定义字段 如果有很多的输出Link 就会有很多的列显示 现在 忽略右上方的 StageVariables 窗口 我们将在以后的讲解进行讲述 下方显示元数据的列定义 输入和输出的Link 如果有很多的输入和输出的Link 那么将出现很多的页框 AnnotationStage 使用它来在Job上增加文本注释 输入框有不同格式的设置 当Job打印的时候显示 描述注释的Stage将在下一节介绍 增加一个或多个 Annotation 的Stage就像一个文本数据框一样进行设置 可以通过在工具栏上的设置要求其是否进行显示 这里有俩个 Annotation 的Stage DescriptionAnnotationStage 将在下面一个讲解中进行讲述 编辑AnnotationStage 输入框内输入的是文本类型 指定的设置有 1 文本的字体和颜色 2 输入框的颜色 3 文字的横纵位置 编译Job 在运行Jobs之前 必须要对其进行编译 在服务端的机器上产生可以运行的编码 对于编译Jobs 点击 File Compile 或者在工具栏上点击 Compile 按钮 编译Jobs的窗口显示Jobs编译的情况 编译如果发生错误 点击 Showerror 来定位错误的位置 点击 More 来返回关于错误更多的信息 运行Job 从Datastage的Designer切换到Director 在Director的列表中 选择要运行的Job点击运行 选择运行的属性 验证这个Job 运行Job 并在日志浏览中监控Job运行的过程 就像知道的那样 在Datastage的Director中运行Job 可以从Designer中的 Tools 菜单中启动 Datastage的Director 可以通过这个方法在Director Manager和Designer之间进行切换 这里有俩种方法运行一个Job 1 直接运行 可以在Designer运行 也可以切换到Director中运行 2 在以后的时间或日期里调用计划任务执行 对于直接运行的Job 1 在列表中选择需要运行的Job 这个Job必须是经过编译的 2 点击Job菜单中的运行 或者点击工具栏中的运行 这是Job运行时的设置窗口会显示出来 DatastageDirector 在Director中显示Jobs状况的列表 运行一个Job 选择一个而后点击Job菜单中的运行 其它查看内容 1 Job的日志 从Job运行产生的数量 2 计划任务 预览在计划的时间或日期运行Job 运行参数设置 Director的日志浏览 在工具栏上点击Log按钮来查看Job的日志 Jobs日志集合了Jobs执行期间的所有事件信息 这些事件 包括 控制事件 如 开始 结束和中止 报告信息 警告信息 错误信息 和程序发生信息 当点击Job菜单中运行的时候 Job运行设置的窗口会显示出来 这个窗口允许用户在以下情况下停止Job的运行 1 指定行数 2 指定警告消息的数量 在运行Job之前可以将其验证 验证是保证Job运行成功地关键 包括 1 验证Link的数据源是否准备好 2 验证文件是否被打开 3 验证SQL是否可以查询数据 经过验证后点击Run运行Job 在Job运行时列的状况会显示出来 第五章操作元数据 下面的讲解中 将可以了解到 介绍DataStage的Manager的构成和功能 导入和导出Datastage的项目 从Sequential文件中导入元数据 加载元数据到SequentialStage中 什么是元数据 Datastage和Manager是一个图形化管理Datastage项目存储的工具 包括元数据和Datastage的其它构成 如Jobs和Routines等等 元数据是数据源和目标数据的描述的标准化 它包括诸如记录列和分割的通用信息 分割标志 还包括指定列的定义 等等 左边的包括工程的树 分了八大分支 但是可以在其下创建下一级文件夹 在工程树下选择一个文件夹显示它的组成 在这个例子中 在工程里一个命名为 WHBI 的文件夹下创建很多Job DataElements 分支 列出内置的和自定义的数据元素 数据元素是数据类型的扩展 将在下面讲述 Jobs 分支 显示在当前工程的Jobs列表 Routines 分支 先是内置和自定义的Routines Routines是DatastageBasic代码的一部分 可以引入到一个Job中 ShareContainers 分支 共享容器就是Datastage的一个单独的Satage的组成 StageType 分支 列出在一个Jobs中可用的Stage的类型 内置的Stage包括在Designer中的结果部分和转换部分的Stage TableDefinitions 分支 显示加载到一个Job的有效的表结构定义 Transformer 分支 先是内置和自定义的Transformer Transformer是可以用于Job的数据转换函数 Manager内容 数据源和目标数据的元数据描述 Datastage项目 Jobs Routines 表单 Datastage的Manager管理俩个不同类型的项目 数据源和目标数据的元数据描述 在Manager中叫做表单定义 Datastage表单定义用于描述各种类型源的列定义的格式 结果 有关的 Hash文件等等 可以在Manager或者Designer中创建表单的定义 可以从源或者目的导入其结构 Datastage的构成在Datastage中任何一个项目 Jobs Routines 表定义 等等 在Datastage中存储Manager是接口用来存储 Datastage组成包括整个项目 都可以从导出的文件中导入到Manager中 Import和Export Manager中的所有项目 都可以导出成为一个文件 导出整个工程 用于备份用于版本控制 用于Datastage的项目从一个工程到其它工程的移动 对于其它开发者 用于共享Datastage的Job和项目 Datastage中的项目包括整个工程 全部都在Manager进行存储 可以将其导出成为一个文件 这个导出的文件能够重新导入回Datastage 导入和导出能用作很多的目的 包括 备份Jobs和工程 维持不同Jobs或者工程的版本 从一个工程到另外一个工程 Datastage项目的移动 将导出的项目 移动到其它的工程 将其重新导入到新的工程里 在开发者之间共享Jobs和工程 导出的文件 当被压缩以后 变得很小 很容易从一个开发者到其他人之间传递 导出过程 在Manager中 点击 Export DatastageComponents 选择Datastage需要到导出的项目 指定导出的类型 dsx xml 在客户端机器上指定导出文件的路径 在Manager中点击 Export DatastageComponents 开始导出的过程 在Manager中任何的项目都可以将其导出成为一个文件 使用这个程序可以对工作进行备份或者将项目从一个工程移动到另一个工程中 选择导出文件的类型 可以选择整个工程或者在一个工程中的一部分项目 指定导出文件的类型 默认的 项目被导成一个文本格式的文件 默认的导出文件是 Dsx 格式的 也可以将项目导出成为 XML 格式的文档 导出的文件目录是在Datastage的客户端 而不是在服务器 Datastage测试问题一 可以将Datastage工程中的Jobs导出来 但是却不能将元数据导出 所以不能将元数据的定义导出成为一个文本 Yes No 答案一 No 元数据的定义的结构 都存在于 TableDefinitions 中 而表单的定义是可以通过导入导出流通于各个工程之间 问题二 Datastage工程导出的目的是存放在客户端 而不是存放在服务器 Yes No 答案二 Yes 导出Datastage的项目 在Datastage的Manager的菜单上点击 Export DatastageComponents 选择 WholeProject 或根据需要进行选择 而后进行导出 导入Datastage工程 在Manager中 点击 Import DatastageComponents 选择要导入的Datastage项目文件 选择要导入的文件 点击 ImportAll 开始导入或者 ImportSelect 从浏览的项目中选择一个导入 选择 OverwriteWithnotQuery 按钮来覆盖那些同名但没有警告的项目 导入元数据 从Sequential文件中导入格式和列的定义 导入关联表的列的定义 导入Hash文件的列的定义 导入的信息在 TableDefinitions 在Job中Stage可以将表定义进行加载进来 表格定义对于一些变化的数据文件和表单进行格式的定义 这些定义可以重复的是用于设计的Jobs 来指定数据的格式 举例 可以导入 Customers txt 文件的格式和列的定义 可以将其加载到源的 SequentialStage 中 表示Job是从 Customers txt 中抽取数据 可以加载这些相同的元数据到其它的Stage中 用来访问同样格式的数据 可以感觉到 元数据是可以再度使用的 它可以被用于格式相同的文件和数据上 如果需要的列定义很相似 可以编辑定义并将其保存在一个新的名字下面 也可以使用不同类型的数据相同的表单定义使用同样的格式 举例 可以导入一个表单定义从一个 Sequential 文件 并使其指定一个ODBC的表单的格式 可以清楚地看到元数据在格式定义上是宽松灵活的 可以导入和定义几个不同类型的表单定义 包括 Sequential 文件 ODBC数据源 Hash文件和全部的表单 Sequential文件导入过程 在DatastageManager中 点击 Import TableDefinitions SequentialFileDefinistions 选择指定的 Sequential 文件的目录和名称 选择Manager的分类 检查格式和列定义和编辑必要的信息 要开始导入 点击 Import TableDefinitions SequentialFileDefinitions ImportMetaData Sequential 窗体会出现 选择目录中包含的Sequential文件 在文件的列表中选择需要导入的文件 选择文件进行导入 选择指定的类别 即文件夹 进行导入1 格式为 类别 子类别 2 是在TableDefinitions下的第一级子目录 3 是在目录下的另外一层 在Manager中定义结构 在Manager中 选择 TableDefinition 的包含的类别 在 TableDefinition 上双击 打开 TableDefinition 的窗口 单击 Columns 的页框浏览和编辑列的定义 选择 Format 页框来编辑文件的格式说明 导入Sequential元数据过程 加载表结构定义 在导入了Sequential元数据结构后 可以将元数据的结构加载到 SequentialStage 中 第六章操作关联数据 下面的讲解中 将可以了解到 设置ODBC连接来关联数据库 导入关联的元数据 从关联表中抽取数据 加载数据到关联表 操作关联数据 在关联的源数据表单中抽取 过滤 转换数据 加载数据到关联表单中 通过ODBCStage来进行连接 支持用户定义SQL 可以对关系型数据执行就像对Sequential数据那样的任务 可以对关系型数据表进行抽取 过滤 转换数据 也可以向关系型表单中加载数据 虽然可以通过本机得到驱动来操作一些关系型数据库 但Oracle等 也可以使用ODBC来访问这些关系型数据库 使用ODBCStage 既可以指定在一个或多个表的关联查询 也可以定义查询 还可以粘贴已经存在的查询 设置一个ODBC连接 在通过ODBC来访问数据之前 一定要先定义一个ODBC的数据源 在Windows中 在控制面板中定义并使用32位的ODBC数据源 ODBC数据源控制 有好几个页框 对于DataStage 我们需要将数据源定义在 系统DSN 中 而不是 用户DSN 中 可以从dataStage安装盘中 安装更多的通用的关系型数据库系统的驱动 点击 添加 来定义一个数据源 点击 添加 后 会显示出一系列的驱动列表 选择适当的驱动而点击 完成 不同关系型数据库有不同的意图 在这个例子中 定义一个 MicrodoftAccess 作为数据源 1 在 数据源名称 输入框中定义数据源的名称 2 点击 选择 选择一个存在的数据库 定义一个连接 3 点击 创建 针对这个数据库定义一个连接 导入ODBC元数据 从ODBC数据中导入表单定义 类似于从 Sequntial 文件中导入结构定义 在Manager中点击菜单 Import TableDefinitions ODBCTableDefinitions 开始进行导入 DSN 列表显示出DataStage服务端定义的数据源 选择需要导入的数据源 如果需要 需要数据用户名和口令 这时 ImportMetadata 窗口显示出来 列表显示出数据库中所有可以用到的表单 可供导入 选择一个或多个表单核导入的列别 点击 OK 即可 抽取关系型数据 从关系型数据库表单中抽取数据 类似于从一个 Sequential 文件中抽取数据 除了使用ODBC的Stage代替了Sequential的Stage 在这个例子里 从一个关系型数据表单中抽取数据 加载到一个 Sequential 文件中 设置ODBC的Stage 在ODBCStage的 General 页框中 在 DataSourceName 输入框中指定ODBC数据源名称 或输入变量 可以点击 GetSQLInfo 按钮 重新从ODBC数据库中获得标志和分割符 显示表单列表 在 Outputs 页框中的 General 页框中 指定表单的名称 选择 GeneralQuery 来定义SQL的声明 在 Columns 和 Selection 页框中选择 User definedSQLQuery 来写自定义的SQL来连接数据库 加载列定义 在 Columns 页框iuazhong加载在Manager中定义的表单结构 这个过程和 Seuential 文件导入类似 在点击 Load 那个 SelectColumns 窗口出现 选择的列的数据将从显示的列里面抽取出来 SelectionCriteria 简单的说 在 Selection 页框中指定一个Where条件或另外的SQL字句 其他的字句根据需要加在SQL条件 就像在SQL语句后面加 OrderBy 那样 浏览SQL语句 这个 ViewSQL 页框中显示将要用来从表单中查询数据的SQL语句 这些SQL语句是只读的 当即 ViewData 可以测试SQL语句查询数据库的数据是否有效 自定义SQL查询 如果想自定义SQL查询 在 General 页框中点击 UserdefinedSQLQuery 可以写或者粘贴SQL语句到 SQLQuery 页框中的 SQLForPrimaryInputs 中 ODBC目标Stage 指定数据源 指定表单名称 选择更新事件 写入或者更新 选择是否创建表单 加载或定义列结构 编辑一个目标ODBC的Stage就像编辑一个源ODBC的Stage一样 包括以下几个内容 1 指定一个包含数据源的目标表单 2 指定表单的名称 3 选择更新的动作 也可以选择出入或更新动作 4 可以随意的建立表单 5 从Manager的 TableDefinition 加载列的定义 加载关系型数据 当使用ODBCStage作为一个目标 在Stage里有一些设置的与源设置有些不同 从 UpdateAction 中选择动作类型执行 可以很容易的从DataStage中创建一个目标表单 或者加载数据到一个存在的表单 在 ViewSQL 页框中 可以查看SQL语句 用来向目标数据表插入数据 编辑DDL 在 EditDDL 页框 可以建立和编辑建立表单的语句 用来建立一个目标的表单 如果要对列定义进行一个改变 要重新定义建立表单的语句 点击 CreateDDL 按钮 事务控制 事务处理 对于读取数据允许指定一个事务处理的水平 处理水平是如何在事务和事务之间冲突的调解 默认的 在 COMMIT 之前 所有的行都写入到目标数据表 在 RowsPerTransaction 输入框 指定在提交前写入记录的行数 就是说写入多少行之后进行提交处理DataStage测试问题一 使用一个ODBC的Stage 只可以对一张表单进行数据抽取 Yes No 答案一 No 可以通过SQL语句在一个数据源中关联多张表 使用本地连接 使用Oracle8I的插件要比使用ODBC的Stage在访问Oracle表单 在性能上效率要高 改良错误的处理 本地连续支持 导入表单结构定义 当执行一个查询 查询结果集 新型的数据结构和接口 Oracle8I的插件让快速有效的从Stage中加载数据流 例如 ODBCStage SequentialStage等等 到目标Oracle数据库表单中 Oracle数据库客户端可以安装在WindwosNTorUNIX操作系统上 用来访问Oracle服务端 可以安装在WindwosNTorUNIX操作系统上 Oracle8插件的例子 这插件在设计的工作区域就像其他Stage一样使用 可以抽取或写入数据到Oracle表单 具有以下特点 1 每个Oracle8的插件Stage是一个被动Stage 可以有若干条输入输出Link 2 输入Link指定要写入的数据 加载入Oracle数据库的数据以数据流的形式 可以指定一个输入Link的数据 使用Datastage生成的SQL语句或自定义的SQL语句 3 抽取的数据在输出的Link中 是以记录流的形式从Oracle数据库中读取数据 可以指定一个输出Link的数据 使用Datastage生成的SQL语句或自定义的SQL语句 4 从一个Oracle数据库读取数据在输出的Link中有关键的记录 读取记录使用关键领域 在SQL语句中的Where字句部分
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!