使用DataProfile进行数据剖析.ppt

上传人:xt****7 文档编号:5186850 上传时间:2020-01-22 格式:PPT 页数:18 大小:680.50KB
返回 下载 相关 举报
使用DataProfile进行数据剖析.ppt_第1页
第1页 / 共18页
使用DataProfile进行数据剖析.ppt_第2页
第2页 / 共18页
使用DataProfile进行数据剖析.ppt_第3页
第3页 / 共18页
点击查看更多>>
资源描述
使用DataProfile进行数据剖析 数据事件探查功能 熟悉数据源并找出数据中要修复的问题 仅对SQLServer中存储的数据进行事件探查并标识潜在的数据质量问题 数据事件探查步骤 第一步 创建数据事件探查任务 第二步 查看数据事件探查结果 创建数据事件探查任务 将探查结果放在test xml中 配置探查内容 查看数据事件探查结果 探查内容 候选键列长度分布列Null比率列模式列统计信息列值分布函数依赖关系值包含 候选键 候选键 CandidateKeyProfiles 配置文件可以帮助您识别哪些列中存在重复值 通过使用这个功能 可以判断表中的一列 或多列的组合 是不是适合做该表的主键 列长度分布 列长度分布 ColumnLengthDistribution 配置文件用于报告所选列中各个字符串值的不同长度 此配置文件可以帮助您识别数据中无效的值 例如 邮政编码的长度是固定的 如果发现有不是这个长度的数据 那么这个记录可能是错误的 列Null比率 列Null比率 ColumnNullRatio 配置文件用于报告所选列中Null值的百分比 列模式 列模式 ColumnPattern 配置文件用于报告一组正则表达式 其中涵盖字符串列中指定百分比的值 此配置文件可以帮助您识别数据中无效的字符串 列统计信息 列统计信息 ColumnStatistics 配置文件报告各种统计信息 例如数值列的最小值 最大值 平均值和标准偏差 此配置文件可以帮助您识别数据中存在的问题 如无效的日期 例如 您对历史日期列进行事件探查 却发现最近的日期是一个将来的日期 列值分布 列值分布 ColumnValueDistribution 配置文件报告选定列中非重复值以及每个值所在表中的百分比 此配置文件还可以帮助您识别非重复值的数目不正确 例如 您对应该包含美国的各州的列进行事件探查 却发现50多个非重复值 函数依赖关系 函数依赖关系 FunctionalDependency 用于报告某列 依赖列 中的值对另一列或一组列 决定列 中的值的依赖程度 此配置文件也可以帮助您识别数据中存在的问题 如无效的值 函数依赖关系 例如 您对包含美国邮政编码的列和包含美国各州的列之间的依赖关系进行事件探查 同一邮政编码应始终对应同一州 但配置文件却发现有违反此依赖关系的情况 值包含 值包含 ValueInclusion 用于计算两列或两个列集之间的重叠值 此配置文件还可以确定列或列集是否适合用作选定表间的外键 值包含 如下例 对FactInternetSales表的ProductKey列进行事件探查 却发现该列包含在产品表的ProductKey列中找不到的值 值包含 使用命令来查询 谢谢
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!