DATASTAGE的介绍及基本操作.ppt

上传人:xt****7 文档编号:17038398 上传时间:2020-11-07 格式:PPT 页数:133 大小:2.98MB
返回 下载 相关 举报
DATASTAGE的介绍及基本操作.ppt_第1页
第1页 / 共133页
DATASTAGE的介绍及基本操作.ppt_第2页
第2页 / 共133页
DATASTAGE的介绍及基本操作.ppt_第3页
第3页 / 共133页
点击查看更多>>
资源描述
DATASTAGE 介绍及基本操作 内容提要: 一、 datastage 介绍 二、如何安装 datastage 三、配置 datastage 工程 四、设计并运行 datastage的 job 五、操作元数据 六、操作关联数据 七、操作约束条件及数据来源 八、定义查找使用的哈希文件 九、聚合数据 十、 job的运行及调试 十一、创建 Basic表达式 一, datastage的介绍 本章主要讲解 ETL的概念, datastage的 介绍、组成及主要功能。 ETL概要 ETL包括数据抽取( Extract)、数据转换 ( Transform)以及数据加载( Load) 3个 阶段。 一般而言,这三个过程中有二次落地 (生成中间文件)。 Ascential DataStage 是一套专门对多种操作数据源 的数据抽取、转换和维护过程进行简化和自动化, 并将其输入数据集市或数据仓库目标数据库的集成 工具。 DataStage 能够处理多种数据源的数据,包括主机 系统的大型数据库、开放系统上的关系数据库和普 通的文件系统 。包括 Oracle,Sybase,DB2,SQL Server, Teradata, FTP文件系统 ,文本文件等等。 数据清洗、转换、加载都可以在图形化工具里完成, 同样可以灵活的被外部系统调度,提供专门的设计 工具来设计转换规则和清洗规则等,实现了增量抽 取、任务调度等多种复杂而实用的功能 。 DS介绍: Datastage的组成: Datastage的服务器端和客户端 Datastage是 C/S软件,服务器端存储所有 的 ds项目和元数据,由关系型数据库( RDBMS) 组成。客户端具有同服务端一样的软件接口。 客户端运行于 windows95或更高版本,服 务端可运行于 windowsNT4.0或 windows2000 版 本, datastage的很多版本都支持 unix。 DS Administrator 在服务端管理 ds的项目和服务端操作。主要用于工 程的参数调整,变量设置,及 command操作。 DS Designer 建立 ds的 job并且编译执行的程序。主要用于 job的 开发及编译。 DS Director 运行和监控 ds的 job。主要用于 job调试。 DS Manager 允许编辑和查看在 ds中存储的内容 。 主要用于项目 管理或 job的导入 、 导出 、 备份 。 DataStage中的 Administrator 默认使用 Administator来指定常规的服务端,用来增加 或删除 DataStage工程,并且可以设置工程的属性。 Administator也对于总库提供命令接口。 使用 Administator的 Project Propertities 工程属性的 窗口,可以进行 1、在 General页框中,设置 Job监控的一些限制信息 和 Director中的其他信息。 2、在 Permission页框中,设置并分配开发人员组的 权限 。 3、在 Tracing 页框中, 设置或取消服务端进行跟踪。 4、在 Schedule 页框中, 设置调度时运行 Job所用到 的用户名和口令。 5、在 Tunables页框中,指定 Hash文件 Stage的读写 的缓存大小。 在 DataStage中的 Administrator设置常用服务器的默认值: 1、改变 Licence信息。 2、设置服务端连接超时时间。 DataStage中的 Manager 使用 DataStage中的 Manager来存储和管理 Job的元 数据,使之可以在 DataStage中的 Designer中再度被 使用。 元数据包括表单和文件结构和导出数据的 Routines 的转换等等。 Manager是 DataStage存储的一个重要的部分,可以 用来加入表单和文件的结构,在左侧分支树中显示 Routines、 Transforms和 Jobs。 自定义的 Routines和 Transforms也在 DataStage中的 Manager里创建。 DataStage中的 Designer DataStage中的 Designer允许使用熟练地拖拽图标和连线的方式 来表示数据抽取、清洗、转换、整合和加载的过程,并将数据导 入数据仓库的表单之中。 Designer提供一个数据流程的模式,轻松将设置和 Job的设计有 机的组成。 使用 Designer,可以: 1、指定数据如何抽取。 2、指定数据的转换规则和进行转换。 3、使用参考性质的 LookUp到数据集市中编辑数据。 a)例如,如果销售的记录集包括 CustomerID,可以在 CustomerMaster表中使用 LookUp查找到 Customer的名称。 b)当需要连接数据集市并使用查询,可以快速的进行访问。 4、对数据进行整合。 5、在定义的约束条件中将基础数据分割成为多个输出的连接。 在 Tools菜单中可以轻松的于 Director, Designer和 Manager之间 切换。 DataStage中的 Director 使用 Datastage的 Director可以对设计的 job进 行验证 、 运行 、 任务调度和监控的工作 。 也 可以针对 job 的运行查看运行的聚合统计情况 。 在 Datastage中进行开发 在 Administrator中定义全局的和项目属性。 在 Datastage中的 Manager里导入定义源的 元数据和目标的元数据。 在 Datastage中的 Designer中验证和编译 job。 在 Datastage中的 Director中验证、运行、和 监控 job。 1、定义工程的属性 在 Administrator中。 2、打开工程。 3、导入元数据,在 job中定义格式、读入或写入 在 Manager中。 4、设计 job 在 Designer中。 a) 定义数据的抽取(读取)。 b) 定义数据流程。 c) 定义数据的集合。 d) 定义数据的转换。 e) 定义数据的约束条件。 f ) 定义数据的加载(写入)。 g) 定义数据的聚合。 5、 编译和调试 job 在 Designer中 。 6、 运行和监控 job 在 Director中 。 Datastage的工程管理 所有的工作都在一个工程中。 在安装过后,需要建立一个工程,这是安 装必选的项目。 在使用它工作之前,要登录这个工程。 可以在工程间进行导入和导出 Datastage的 项目内容。 多个用户可以在同一时间使用同一工程, 但是不能同时编辑同一个项目。 所有的工作都在 Datastage的工程里进行。在做任何事 之前,那些具有同样管理权限的人,都要先打开一个工程, 即进行登录。 在安装过程中,工程就要求创建,这是必须做的事情。 可以在安装之后,在 Administrator中的 Project页框中另增加 其它工程。 一个工程关联着一个目录,这个工程目录用来存储 jobs、 Datastage项目和元数据。在做任何操作前都要先打开这个 工程,即登录这个工程。 工程是自包含的很多的工程可以在同一时间被打开,在 各自单独的环境打开。可以在它们之间导入或导出项目。 多用户可以在同一时间使用一个工程中工作,但是 Datastage禁止在同一时间由多个用户访问同一个 job。 Datastage测试 问题一: Datastage的 Designer是用来建立和编译 job、用来进行数据 的抽取、转换和加载即 ETL。( Yes/No) 答案一: Yes, Designer使用拖拽的方式将设计元素(习惯上叫 stage) 拖拽到设计区域中,经过建立和编译, Job就可以执行,用 来进行数据的抽取、转换和加载。 问题二: Datastage的 Manager用来执行编译通过的 Jobs。( Yes/No) 答案二: No, Datastage的 Manager是用来管理元数据的,如表单结 构,内置和自定义 Routines等的,使 Datastage用来管理资源 存储的。 问题三: Datastage的 Director用来执行编译通过的 Jobs。 ( Yes/No) 答案三: Yes,使用 Director来对编译通过的 job进行验证或者 运行,也可以在 jobs运行过程中对其进行监控。 问题四 : Datastage的 Administrator是用来定义全局变量和设 置工程属性的。( Yes/No) 答案四: Yes,可以在 Administrator中设置工程中使用的全局 变量和必要属性,如连接数据库超时,登录者权限 等等。 第二章 如何安装 Datastage 下面的讲解中,将可以了解到: 在 Windows系统中安装 Datastage服务端。 建立一个 Datastage的工程。 安装 Datastage的客户端。 Datastage 的服务端要首先安装,之后才 可以安装 Datastage 客户端,服务端能都安 装在 WinNT、 Windows2000或者 UNIX系统中, 这个模块将介绍在 Windows环境下进行安装。 系统的具体配置依赖于所要安装的 Datastage 版本,在安装盘上找到最接近的 系统需求配置。 安装 Datastage 服务端需要有哪些安装盘 和服务端的许可,这个许可包含以下信息: 1,注册号(序列号)。 2,工程数量。 在 Datastage服务端可以建立的最大工程 数量。包括新建的工程,也包括对先前建立 的工程进行加上升级。 3,到期时间。 4,授权代码。 在许可信息中,这个信息必须被正确输入 的。 安装向导会指导通过以下步骤进行: 1,输入许可信息。 2,指定服务器的路径。 3,选择程序的文件夹。 4,创建一个新的工程或升级已经存在的工 程。 安装 Datastage 首先安装 Datastage Server端,鼠标点击 软件会自动安装,安装过 程中系统提示使用者选择安装路径和输入产 品序列号。 在 Datastage Server安装的过程中会提示 用户建立一个工程。 在安装 Datastage Server端以后,需要安 装 Datastage Client端,鼠标点击 软件会自动进行安装,安装过程中系统提示 使用者选择安装路径和输入产品序列号。 安装有 Datastage服务端的机器,必须运行 着。 需要运行 Datastage的客户端。 打开 Datastage的控制面板,来停止或启动 服务端。 当再次安装 Datastage的时候,会停止服务 端。 为了保证 Datastage客户端程序的正常运 行,必须保证 Datastage的服务器保持运行状 态。 在 Windows2000的控制面板中打开 Datastage的控制面板,可以启动或停止全部 的 Datastage服务。 点击可以启动全部的服务或者停止全部的 服务。 在安装或重新安装 Datastage的时候,这 些服务一定要全部停止。 安装 Datastage客户端 在安装 Datastage服务端之后。 可以安装在 WinNT, Windows2000以及 WinXP上。 Datastage产品的许可用于安装 Datastage的 客户端。 Datastage的操作许可只能用于安装 Director 和 Administrator。 Datastage的客户端必须在 Datastage的服 务端安装过后才可以进行安装,客户端能够 安装在 Windows95、 Windows98、 WindowsNT、 Windows2000以及 WindowsXP 操作系统上。 这里有俩个版本的 Datastage: 1,开发版本的 Datastage,包含了解所有的客 户端应用程序。 2,操作员版本的 Datastage只包含了需要用到 的运行和监控 Job的应用程序,即 Director和 Administrator。 安装开发版本的 Datastage,需要有 Datastage开 发版的许可。 安装操作员版本的 Datastage,需要有 Datastage 的 Director的许可。 许可包括以下几个信息: 1,序列号 2,用户限制 3,到期时间 4,授权认可代码 这些信息必须是正确的数据。 第三章 配置 Datastage 工程 下面的讲解中,将可以了解到。 在 Datastage的 Administrator中设置工程属 性。 在 Datastage的 Administrator中设置用户的 权限。 Datastage工程属性 建立或者删除 Datastage工程。 设置 Datastage工程的默认属性。 修改 Datastage工程属性的方法。 登录 Datastage的 Administrator。 选择要修改属性的工程。 Datastage中所有的开发工作都在一个 Datastage的工程中,在安装 Datastage服务 端时,默认就已经建立了一个工程,可以使 用 Administrator进行工程的控制。 每个工程都有其关联的目录,目录存储了 在工程中建立的项目,如 Jobs、元数据、自 定义的 Routines等等。 在一个工程中工作之前,必须要先打开它 (即进行登录)。 在使用 Datastage的 Administrator时,可 以设置默认的工程属性。 设置 Datastage工程属性 选择要进行修改的工程,点击“ Properties” 工程属性的“ General”页框 点击 Datastage的 Administrator的 “ Properties”按钮,打开工程属性的窗口, 这里有 5个页框(“ Mainframe”页框只有在许 可支持大型机的 Jobs的时候可用),默认打 开的“ General”页框。 如果选择“ Enable job administrator in Director”的选择项,那么在不打开 Administrator的情况下在 Datastage的 Director中可以运行一些管理级别的函数。 在 Director中运行一个 Job的时候,事件被 写入 Jobs的运行的日志,例如:记录了何时 开始运行 Jobs,何时停止,何时终止。 日志记录的事件增长量很大,“ Auto- purpe of job log”选择框可以让指定用什么条 件来筛选这些事件。 可以限制记录时间的每天的数量或者运行 Jobs运行的数量。 工程属性的“ Permissions”页框 使用这个页框可以设置访问和使用 Datastage 的用户组权限。 所有的 Datastage用户中,在登录 Datastage之 前,都必须拥有一个公认的,属于自己的用户角色, 使之用来进行登录,这样可以用来防止匿名的方式 使用 Datastage工程。 这里有三种 Datastage用户角色: 1, Datastage Developer,可以访问 Datastage工程 全部的范围。 2, Datastage Operator,可以运行、释放、 Datastage的 Jobs。 3, Datastage Production Manager,可以管理 Datastage 产品组件。 工程属性的“ Tracing”页框 在这个页面设置是否在 Datastage服务端进行 跟踪处理。 Datastage服务端进行跟踪处理默认是无效的。 当使其有效, Datastage客户端运行项目的时 候,所有的记录信息都要在 Datastage服务端进行监 控,并写入监控文件。使用这些底层系统知识可以 帮助找到 Datastage客户端的问题所在,如果跟踪设 置为有效,当调用一个 Datastage的客户端的时候, 用户会收到一些警告的信息。 警告: 跟踪会消耗 Datastage服务器大量的系统资源, 除非用户需要诊断重大的问题,一般不建议设置跟 踪有效。 工程属性的“ Schedule”页框 使用“ Schedule”页框,来指定在选择的项目中运行计划任务的 jobs的用户名和口令,如果没有指定, Jobs会在当前系统的计划任务的 用户名下运行。 工程属性的“ Tunables”页框 在“ Tunable”页框中,可以指定当用来读取 Hash文件记录时的 缓存的大小, Hash文件大多数用于查找操作,这部分介绍会在下面 的介绍中进行。 第四章 设计并运行 Datastage的 Job 下面的讲解中,将可以了解到: 描述什么是 Datastage的 Job。 一步步讲述如何建立 Datastage Job。 描述 Link和 Stage。 识别不同类型的 Stage。 设计一个简单抽取和加载的 Job。 编译、验证和运行 Job。 监控 Job的执行。 什么是 Job Job开发的浏览 在 Manager 导入数据源和目标数据库的数据结 构定义。 在 Designer 加入 Stage定义数据的抽取和加载。 加入 Transformer和其它的 Stage来定义转换。 从源数据到目的数据,加入 Link来定义数据的流向。 编译 Job。 在 Director中,验证、运行和监控 Job。 在这个讲解中,将通过一个单一 Job的过程第一步, 着手定义元数据。 Designer的工作区域 中间偏右是 Datastage的设计区域,可以 将 Stage和 Link从工具的板块上拖动过来放在 上面,左边是“ Repository”(存储)窗口, 显示的是 Manager中的分支。 Manager中的分支,就像 Jobs和表定义 一样可以直接拖拽到设计区域,点击 “ View Repository”来显示“ Repository” 窗口。 点击“ View Property Browser”来显 示“ Property Browser”窗口,显示在设计区 选择的项目的属性。 Designer的工具栏 工具栏中的一些图标可以快捷的调用 一些 Datastage的内部函数,更加方便进行 Jobs的设计工作。 Designer的 Stage工具面板 工具面板中包含描述的图标,可以将其加入到 Jobs设计当中。 当安装 Datastage的时候,很多的 Stage 都会自动地进行安装,也可以根据特定的目 的安装另外的 Stage,这些被叫做插件。 例如,那个叫做“ Sort”的插件就是用来 对数据排序的。 插件的介绍将在以后的讲解来介绍。 下面将部分的 Stage进行简单的说明(有些 Stage在 普通应用中并不常用): 被动 Stage和主动 Stage 被动 Stage的定义是用来读写数据源的 Stage。 被动 Stage包括: Sequential, Odbc, Hash 文件的 Stage。 主动 Stage的定义是用来数据的筛选和转换 部分的 Stage。 主动 Stage包括 :Transformer、 Aggregator 和 Sort的插件。 这里有俩种类型的 Stage: 被动 Stage,是用来读写数据源的数据的,包 括 Sequential、 Odbc、 Hash文件的 Stage,等等。 主动 Stage:是用来筛选和转换部分的 Stage, 包括 Transformer、 Aggregator和 Sort的插件,等等。 Datastage测试: 问题一: Sequential Stage是一个主动地 Stage。 ( Yes/No) 答案一: No,由于 Sequential Stage可以用于读取 数据源和写入数据,但是又不能对数据进行转换, 所以不是主动的 Stage,而是被动的 Stage。 Sequential Stage 导出数据或加载数据到一个 Sequential文件。 为 Sequential指定完整的路径。 指定文件的格式 :定义宽度或者分隔符。 指定列的定义。 指定写的形式:覆盖、追加。 Sequential文件时用来从一个 Sequential文 件导出或者加载到一个 Sequential文件中。 在修改 Sequential文件的时候需要指定一下内 容: 1、文件的路径和名称。 2、文件的格式。 3、列的定义。 4、如果 Sequential Stage被用作一个目标的 话,指定写入动作时选择:覆盖已存在的文 件或者在文件基础上进行追加。 编辑目标端的一个 Sequential文件 Stage 定义一个 Sequential的目标 Stage类似于定义一 个源的 Sequential Stage。 在输入的 Link中,定义数据导入到 Stage的数据 格式。从“ Input Box”中输入 Link的列表进行选择。 定义一个文件的 Job,定义文件被写入,如果 文件不存在, Datastage将会自动建立,在 “ Update action”中指定数据文件是否覆盖或者追加。 “ General”页框中的“ FilterCommand”,可以 指定一个过滤程序,可以使用其在抽取数据的过程 中进行数据的过滤。 举例,在读取数据之前要有一个解压缩的过程。 从中选择类型或者浏览从过滤程序中,在输入框中 指定命令行,只有在“ General”页框中的 Stage页面 中选择了“ Stage uses filter commands”的选择框, 这个输入框变为可用,如果指定了过滤命令,数据 浏览没有定义,那么“ ViewData”按钮不可用。 在“ Format”页框中,指定不同格式的目标文 件,同指定源文件相同。 如果目标文件不存在,在 Jobs运行之后,才可 以浏览数据。如果这时点击了“ ViewData”按钮, Datastage将会返回一个“ Failed to Open .”的错误。 在源数据的 Stage里定义输出数据的列定义, 同时定义目标 Stage中的相应的输入 Link。 可以将 Link想象成为一个通道,从一头流到另 外一头,所以输入和输出的格式要保持一致。 Transformer Stage 很关键的主动 Stage。 使用 Transformer Stage可以定义条件、来 源和字段的对应关系。 输入的列和输出的列进行对应。 在这个讲解中,我们将定义列的对应。 Transformer Stage是一个重要的主动 Stage, 其它主动地 Stage执行很多指定类型的转换。 在 Transformer Stage中可以指定: 1、列的对应。 2、数据的来源。 3、过滤条件。 字段对应是指输入字段和输出字段进行对应, 从输入列到输出列数值直接通过。 数据来源的值经过计算写入到输出的列,以输 入列为基础。 在引入的行将被写入到输出的列,约束指定的 条件将有效。 Transformer Stage元素 Transformer 有以下元素: 在上方,左边的区域显示输入 Link的列信息, 如果有很多的输入 Link,就会有许多的列显示。 在上方,右边的区域显示的输出 Link的内容, 我们不能在这里定义字段,如果有很多的输出 Link, 就会有很多的列显示。 现在,忽略右上方的“ Stage Variables”窗口, 我们将在以后的讲解进行讲述。 下方显示元数据的列定义,输入和输出的 Link。 如果有很多的输入和输出的 Link,那么将出现 很多的页框。 Annotation Stage 使用它来在 Job上增加文本注释。 输入框有不同格式的设置。 当 Job打印的时候显示。 描述注释的 Stage将在下一节介绍。 增加一个或多个“ Annotation”的 Stage就像一个文本数 据框一样进行设置,可以通过在工具栏上的设置要求其是否 进行显示。 这里有俩个“ Annotation”的 Stage,“” Description Annotation Stage”将在下面一个讲解中进行讲述。 编辑 Annotation Stage 输入框内输入的是文本类型,指定的设置有: 1、文本的字体和颜色。 2、输入框的颜色。 3、文字的横纵位置。 编译 Job 在运行 Jobs之前,必须要对其进行编译,在服务端的机 器上产生可以运行的编码,对于编译 Jobs,点击“ File Compile”或者在工具栏上点击“ Compile”按钮,编译 Jobs的 窗口显示 Jobs编译的情况。 编译如果发生错误: 点击“ Show error”来定位错误的位置。 点击“ More”来返回关于错误更多的信息。 运行 Job 从 Datastage的 Designer切换到 Director。 在 Director的列表中,选择要运行的 Job点 击运行。 选择运行的属性。 验证这个 Job。 运行 Job,并在日志浏览中监控 Job运行的 过程。 就像知道的那样,在 Datastage的 Director中运行 Job, 可以从 Designer中的“ Tools”菜单中启动, Datastage的 Director。 可以通过这个方法在 Director、 Manager和 Designer之 间进行切换。 这里有俩种方法运行一个 Job: 1、直接运行。(可以在 Designer运行,也可以切换 到 Director中运行) 2、在以后的时间或日期里调用计划任务执行。 对于直接运行的 Job: 1、在列表中选择需要运行的 Job,这个 Job必须是经过 编译的。 2、点击 Job菜单中的运行,或者点击工具栏中的运 行。这是 Job运行时的设置窗口会显示出来。 Datastage Director 在 Director中显示 Jobs状况的列表,运行一个 Job,选择一个而后点击 Job菜单中的运 行。 其它查看内容: 1、 Job的日志 从 Job运行产生的数量。 2、计划任务 预览在计划的时间或日期运行 Job。 运行参数设置 Director 的日志浏览 在工具栏上点击 Log按钮来查看 Job的日志, Jobs日志集 合了 Jobs执行期间的所有事件信息。 这些事件,包括:控制事件,如:开始、结束和中止、 报告信息、警告信息、错误信息、和程序发生信息。 当点击 Job菜单中运行的时候, Job运行设置的窗口会显 示出来。 这个窗口允许用户在以下情况下停止 Job的运行。 1、指定行数。 2、指定警告消息的数量。 在运行 Job之前可以将其验证,验证是保证 Job运行成功 地关键。包括: 1、验证 Link的数据源是否准备好。 2、验证文件是否被打开。 3、验证 SQL是否可以查询数据。 经过验证后点击 Run运行 Job,在 Job运行时列的状况会 显示出来。 第五章 操作元数据 下面的讲解中,将可以了解到: 介绍 DataStage的 Manager的构成和功能。 导入和导出 Datastage的项目。 从 Sequential文件中导入元数据。 加载元数据到 Sequential Stage中。 什么是元数据 Datastage和 Manager是一个图形化管 理 Datastage项目存储的工具,包括元数据 和 Datastage的其它构成,如 Jobs和 Routines等等。 元数据是数据源和目标数据的描述的 标准化。它包括诸如记录列和分割的通用 信息,分割标志,还包括指定列的定义, 等等。 左边的包括工程的树。分了八大分支,但是可 以在其下创建下一级文件夹,在工程树下选择一个 文件夹显示它的组成。在这个例子中,在工程里一 个命名为” WHBI”的文件夹下创建很多 Job。 “ DataElements”分支:列出内置的和自定义 的数据元素。(数据元素是数据类型的扩展,将在 下面讲述) “ Jobs”分支,显示在当前工程的 Jobs列表。 “ Routines”分支:先是内置和自定义的 Routines, Routines是 Datastage Basic代码的一部 分,可以引入到一个 Job中。 “ShareContainers”分支:共享容器就是 Datastage的一个单独的 Satage的组成。 “ StageType”分支:列出在一个 Jobs中可用的 Stage的类型。内置的 Stage包括在 Designer中的结 果部分和转换部分的 Stage。 “ TableDefinitions”分支:显示加载到一个 Job 的有效的表结构定义。 “ Transformer”分支:先是内置和自定义的 Transformer。 Transformer是可以用于 Job的数据转 换函数。 Manager内容 数据源和目标数据的元数据描述。 Datastage项目。 Jobs。 Routines。 表单。 Datastage的 Manager管理俩个不同类型 的项目: 数据源和目标数据的元数据描述。 在 Manager中叫做表单定义。 Datastage 表单定义用于描述各种类型源的列定义的格 式:结果、有关的、 Hash文件等等。 可以在 Manager或者 Designer中创建表 单的定义,可以从源或者目的导入其结构。 Datastage的构成 在 Datastage中任何一个项目( Jobs, Routines,表定义,等等)在 Datastage中存 储 Manager是接口用来存储。 Datastage组成包括整个项目,都可以从 导出的文件中导入到 Manager中。 Import 和 Export Manager中的所有项目,都可以导出成为一个文件。 导出整个工程。 用于备份 用于版本控制。 用于 Datastage的项目从一个工程到其它工程的移动。 对于其它开发者,用于共享 Datastage的 Job和项目。 Datastage中的项目包括整个工程,全部都在 Manager进行存储,可以将其导出成为一个文件。 这个导出的文件能够重新导入回 Datastage。 导入和导出能用作很多的目的,包括: 备份 Jobs和工程。 维持不同 Jobs或者工程的版本。 从一个工程到另外一个工程, Datastage项目 的移动。将导出的项目,移动到其它的工程,将其 重新导入到新的工程里。 在开发者之间共享 Jobs和工程。导出的文件, 当被压缩以后,变得很小,很容易从一个开发者到 其他人之间传递。 导出过程 在 Manager中,点击“ Export Datastage Components”。 选择 Datastage需要到导出的项目。 指定导出的类型: dsx, xml。 在客户端机器上指定导出文件的路径。 在 Manager中点击“ Export Datastage Components”开始导出的过程。 在 Manager中任何的项目都可以将其导出成为 一个文件。使用这个程序可以对工作进行备份或者 将项目从一个工程移动到另一个工程中。 选择导出文件的类型,可以选择整个工程或者 在一个工程中的一部分项目。 指定导出文件的类型,默认的,项目被导成一 个文本格式的文件,默认的导出文件是“ Dsx”格式 的。也可以将项目导出成为“ XML”格式的文档。 导出的文件目录是在 Datastage的客户端,而 不是在服务器。 Datastage测试 问题一: 可以将 Datastage工程中的 Jobs导出来,但是却 不能将元数据导出,所以不能将元数据的定义导出 成为一个文本。( Yes/No) 答案一: No,元数据的定义的结构,都存在于“ Table Definitions”中,而表单的定义是可以通过导入导出 流通于各个工程之间。 问题二: Datastage工程导出的目的是存放在客户端,而 不是存放在服务器。( Yes/No) 答案二: Yes。 导出 Datastage的项目 在 Datastage的 Manager的菜单上点击 “ Export Datastage Components”。 选择“ Whole Project”或根据需要进行选择, 而后进行导出。 导入 Datastage工程 在 Manager中,点击“ Import Datastage Components”。 选择要导入的 Datastage项目文件。 选择要导入的文件,点击“ Import All”开始导入或者 “ Import Select”从浏览的项目中选择一个导入。选择 “ Overwrite Withnot Query”按钮来覆盖那些同名但没有警 告的项目。 导入元数据 从 Sequential文件中导入格式和列的定义。 导入关联表的列的定义。 导入 Hash文件的列的定义。 导入的信息在“ Table Definitions”。 在 Job中 Stage可以将表定义进行加载进来。 表格定义对于一些变化的数据文件和表 单进行格式的定义。这些定义可以重复的是 用于设计的 Jobs,来指定数据的格式。 举例,可以导入“ Customers.txt”文件的 格式和列的定义,可以将其加载到源的 “ Sequential Stage”中,表示 Job是从 “ Customers.txt”中抽取数据。 可以加载这些相同的元数据到其它的 Stage中, 用来访问同样格式的数据。可以感觉到,元数据是 可以再度使用的,它可以被用于格式相同的文件和 数据上。 如果需要的列定义很相似,可以编辑定义并将 其保存在一个新的名字下面。 也可以使用不同类型的数据相同的表单定义使 用同样的格式。举例,可以导入一个表单定义从一 个“ Sequential”文件,并使其指定一个 ODBC的表 单的格式。可以清楚地看到元数据在格式定义上是 宽松灵活的。 可以导入和定义几个不同类型的表单定义,包 括:“ Sequential”文件、 ODBC数据源、 Hash文件 和全部的表单。 Sequential文件导入过程 在 Datastage Manager中,点击“ Import Table Definitions Sequential File Definistions” 选择指定的“ Sequential”文件的目录和名 称。 选择 Manager的分类。 检查格式和列定义和编辑必要的信息。 要开始导入,点击“ Import Table Definitions Sequential File Definitions”,“ Import Meta Data ( Sequential)”窗体会出现。 选择目录中包含的 Sequential文件,在文件的 列表中选择需要导入的文件。 选择文件进行导入。 选择指定的类别(即文件夹)进行导入 1、格式为: (类 别 /子类别 )。 2、 是在 Table Definitions下的第一 级子目录。 3、 是在 目录下 的另外一层。 在 Manager中定义结构 在 Manager中,选择“ Table Definition” 的包含的类别。 在“ Table Definition”上双击,打开 “ Table Definition”的窗口。 单击“ Columns”的页框浏览和编辑列的 定义,选择“ Format”页框来编辑文件的格式 说明。 导入 Sequential元数据过程 加载表结构定义 在导入了 Sequential元数据结构后,可以将元 数据的结构加载到“ Sequential Stage”中。 第六章 操作关联数据 下面的讲解中,将可以了解到: 设置 ODBC连接来关联数据库。 导入关联的元数据。 从关联表中抽取数据。 加载数据到关联表。 操作关联数据 在关联的源数据表单中抽取,过滤、转换数 据。 加载数据到关联表单中。 通过 ODBC Stage来进行连接。 支持用户定义 SQL。 可以对关系型数据执行就像对 Sequential数 据那样的任务。可以对关系型数据表进行抽 取、过滤、转换数据,也可以向关系型表单 中加载数据。 虽然可以通过本机得到驱动来操作一些关系 型数据库,但 Oracle等,也可以使用 ODBC来 访问这些关系型数据库。 使用 ODBC Stage,既可以指定在一个或多 个表的关联查询,也可以定义查询,还可以 粘贴已经存在的查询。 设置一个 ODBC连接 在通过 ODBC来访问数据之前,一定要先定义一个 ODBC 的数据源。在 Windows中,在控制面板中定义并使用 32位的 ODBC数据源。 ODBC数据源控制,有好几个页框。对于 DataStage,我们 需要将数据源定义在系统 DSN中,而不是用户 DSN中。 可以从 dataStage安装盘中,安装更多的通用的关系型数据 库系统的驱动。 点击添加来定义一个数据源。点击添加后,会显 示出一系列的驱动列表。选择适当的驱动而点击完成。 不同关系型数据库有不同的意图,在这个例子中, 定义一 个 Microdoft Access作为数据源: 1. 在数据源名称输入框中定义数据源的名称。 2. 点击选择选择一个存在的数据库,定义一个连接。 3. 点击创建,针对这个数据库定义一个连接。 导入 ODBC元数据 从 ODBC数据中导入表单定义,类似于从 Sequntial 文件中导入结构定义。在 Manager中点 击菜单 Import - Table Definitions- ODBC Table Definitions, 开始进行导入。 DSN列表显示出 DataStage服务端定义的数据源。 选择需要导入的数据源,如果需要,需要数据用户 名和口令。 这时 Import Metadata 窗口显示出来。列表显 示出数据库中所有可以用到的表单,可供导入。选 择一个或多个表单核导入的列别,点击 OK即可。 抽取关系型数据 从关系型数据库表单中抽取数据,类似于 从一个 Sequential 文件中抽取数据,除了 使用 ODBC的 Stage代替了 Sequential的 Stage。 在这个例子里,从一个关系型数据表单中 抽取数据,加载到一个 Sequential 文件中。 设置 ODBC的 Stage 在 ODBC Stage 的 General 页框中,在 Data Source Name 输入框中指 定 ODBC数据源名称,或输入变量。 可以点击 Get SQL Info按钮,重新从 ODBC数据库中获得标志和分割符。 显示表单列表 在 Outputs 页框中的 General 页框中,指定表单的名称。 选择 General Query 来定义 SQL 的声明,在 Columns 和 Selection 页框中选择 User-defined SQLQuery来写自定义的 SQL 来连接数据库。 加载列定义 在 Columns 页框 iuazhong加载在 Manager 中定义的表单结构。这个 过程和 Seuential文件导入类似。 在点击 Load, 那个 Select Columns 窗口出现,选择的列的数据将 从显示的列里面抽取出来。 Selection Criteria 简单的说,在 Selection页框中指定一个 Where 条件或另外的 SQL字 句。 其他的字句根据需要加在 SQL条件,就像在 SQL语句后面加 Order By 那样。 浏览 SQL语句 这个 View SQL页框中显示将要用来从表单中查询数据的 SQL语句。 这些 SQL语句是只读的,当即 View Data可以测试 SQL语句查询数据库 的数据是否有效。 自定义 SQL查询 如果想自定义 SQL查询,在 General 页框中点击 User defined SQL Query, 可以写或者粘贴 SQL语句到 SQL Query页框中的 SQL For Primary Inputs 中。 ODBC目标 Stage 指定数据源。 指定表单名称。 选择更新事件:写入或者更新。 选择是否创建表单。 加载或定义列结构。 编辑一个目标 ODBC的 Stage就像编辑一个源 ODBC的 Stage一样。包括以 下几个内容: 1. 指定一个包含数据源的目标表单。 2. 指定表单的名称。 3. 选择更新的动作,也可以选择出入或更新动作。 4. 可以随意的建立表单。 5. 从 Manager 的 Table Definition 加载列的定义。 加载关系型数据 当使用 ODBC Stage 作为一个目标,在 Stage 里有一些设置的与源设置有些不同。 从 Update Action 中选择动作类型执行。 可以很容易的从 DataStage中创建一个目标表单,或者加载数据到一个存在的表单。 在 View SQL 页框中,可以查看 SQL语句,用来向目标数据表插入数据。 编辑 DDL 在 Edit DDL 页框,可以建立和编辑建立表单的语句,用来建立一个目 标的表单。 如果要对列定义进行一个改变,要重新定义建立表单的语句,点击 Create DDL按钮。 事务控制 事务处理:对于读取数据允许指定一个事务处理的 水平。处理水平是如何在事务和事务之间冲突的调 解。 默认的,在 COMMIT之前,所有的行都写入到目 标数据表。在 Rows Per Transaction输入框,指 定在提交前写入记录的行数,就是说写入多少行之 后进行提交处理 DataStage 测试 问题一: 使用一个 ODBC的 Stage,只可以对一张表单进行 数据抽取。( Yes/No) 答案一: No。可以通过 SQL语句在一个数据源中关联多张 表。 使用本地连接 使用 Oracle8I的插件要比使用 ODBC的 Stage 在访问 Oracle表单,在性能上效率要高。 改良错误的处理 。 本地连续支持。 导入表单结构定义。 当执行一个查询,查询结果集。 新型的数据结构和接口。 Oracle8I的插件让快速有效的从 Stage中 加载数据流(例如, ODBC Stage、 Sequential Stage等等)到目标 Oracle数据库 表单中。 Oracle数据库客户端可以安装在 WindwosNT or UNIX操作系统上,用来访问 Oracle服务端,可以安装在 WindwosNT or UNIX操作系统上。 Oracle8插件的例子 这插件在设计的工作区域就像其他 Stage一样使用。可 以抽取或写入数据到 Oracle表单。 具有以下特点: 1、每个 Oracle8的插件 Stage是一个被动 Stage,可以 有若干条输入输出 Link。 2、输入 Link指定要写入的数据。加载入 Oracle数据库 的数据以数据流的形式,可以指定一个输入 Link的数据,使 用 Datastage生成的 SQL语句或自定义的 SQL语句。 3、抽取的数据在输出的 Link中,是以记录流的形式从 Oracle数据库中读取数据。可以指定一个输出 Link的数据, 使用 Datastage生成的 SQL语句或自定义的 SQL语句。 4、从一个 Oracle数据库读取数据在输出的 Link中有关 键的记录。(读取记录使用关键领域,在 SQL语句中的 Where字句部分)
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!