rosetta使用手册

上传人:简****9 文档编号:48321965 上传时间:2022-01-03 格式:DOCX 页数:7 大小:26.35KB
返回 下载 相关 举报
rosetta使用手册_第1页
第1页 / 共7页
rosetta使用手册_第2页
第2页 / 共7页
rosetta使用手册_第3页
第3页 / 共7页
点击查看更多>>
资源描述
Rosetta的使用手册波兰工业大学计算机科学研究所智能决策支持系统实验室设计的RSES系统作为可选组件,被嵌入其计算核心。本文中与其相关的算法带有前缀“RSE*简介:本文件构成了技术参考了 Rosetta软件手册。对主要算法及其选项进行简要介绍, 并给出相关的引用文献。本手册不应孤立的阅读。读者应参考相关文献和相关理论背景。手册中使用通用的 符号和术语。本手册是在假定读者已具有数据挖掘和知识发现的基础。止匕外,还必 须了解典型的经验模型是如何实现的。在参考文献26中,有Rosetta应用的小例子,还有其如何使用等知识,包括对数据分类的验证。在在Rosetta图形用户界面,相同的菜单项出现了许多不同类型的对象。例如,所有的对象在他们的弹出式菜单项都有一个注解。”Rosetta图形界面细节:一个决策系统可以通过“Oper读入新工程中,它将会出现在 “Structure勺工程树工程树的节点可以被收起或打开。3工程项目:工程描述:项目对象是项目树顶层结构对象。根项目不能从图形界面中删除。一个项目 可能有数个子项目。3.1 ODBC项目:ODBC决策表导入描述:允许从各种数据源通过 开放式数据库互连”的方法导入表格数据, 如电子 表格、关系数据库等。对话框:图1、图23.2 报告描述:这类算法输出关于项目的信息和元信息。该算法函数只做简单的转换,是该 算法的附加功能。可输出XML、HTML格式3.3 注释注释包括一般标注信息和一个历史记录列表。部分信息会自动生成,这有助于生成 Rosetta系统文件。注释还拥有一个文件名。当使用保存时,该对象被保存到这个相应位置。4决策表信息系统和决策系统都代表相同的结构。在表中,所有的所有属性值集以整数表 示。因此,信息系统在本质上可被看作一个整数的矩阵。表中整数和其在模型中意 义的映射关系由和每个信息系统相关的数据字典处理。关于数据字典的描述见4.1节。4.1 数据字典每一个决策表都有一个与之相关的数据字典。用于将实际表格以不同数据格式表示 并替代。数据字典有几个字典属性,表格中每个属性与它相联系。它们之间的映射取决于属 性的类型。字典属性还可完成逆映射,字典中的每个属性也拥有的名称和属性的单 位。比如,设vCVa,令v=125。如果a是整数属性,则v映射到字符串125;如果a是 一个浮点属性,且n=2,则v映射到字符串1.25;如果a是字符属性,v映射到One hundred and twenty five4.2 查看打开决策表,进行检查。灰色项目表示属性被标记,可使其不参与运算。决策属性 以粗体表示,且在表中最右边。整型和浮点型属性右对齐,字符串属性为中心对 齐。右键点击可弹出菜单栏。隐藏属性可以通过点击弹出菜单中的“Masking:通过“Use Dictionary菜单可以改变查看模式。通过“ Swap何以转换两列。通过“Join 可以连接两列。当对决策表有进一步操作后,就不能再得到修改了,此时,可以将其复制,然后修 改。4.3 字典输出:输出一个关于决策表与ASCR的数据字典。输出的文件可被手工编辑并重新导入 系统。输入:可以输入手动编辑的文件,其格式见 A.1节。4.4 输出此功能算法实现以一定的格式输出关于决策表的某些方面信息,仅仅起到格式转换 的作用。可输出 XML、Prolog、Matlab、Plain、Indiscernibility graph、 Discernibility functions 文件。4.5 数据的补齐此功能算法主要完成数据的补齐,是否需要补齐取决于后续决策表的运算要求。如 果使用IDG就不需要补齐。某些情况下,对于空缺的数值,算法会将其当做不适用的”而不是 无记录的”,这种情况下,就不需要补齐。通常调节补齐决策表数据是可取的。以下列步骤进行:1 .将表格分割成几个子表,每个都有自己的决策类。2 .对每个子表套用无条件补齐器。3 .混合补齐的子表,合成总表。对于完成信息的保存尚未实现。4.5.1 数据补齐移除不完整法移除所有有一个或多个数据空缺的对象。以 u和u/表示移除前后不完整对象,则:u 二 |4e 寸.e A 3工T)4.5.2 均值填充利用现存属性值的平均值作为缺失属性的属性值。对于字符属性,缺失的属性用现 存属性中出现频率最高的模式值代替。如果a和a/分别表示补齐前后的属性,有:Oj t u a(中T j0: = | TE 0 iJ Y)= vjM if ftn向”“)力工血为数字叫Ql .一 a且修为非数字4.5.3 平均条件填充与4.5.2节中的算法类似,但计算均值和模式值时要和决策属性相互适应。对于决 策属性为 朱定义”的情况,不会对其进行补齐。4.5.4 组合填充将任何可能的值作为缺失的属性值。就是说,使用可能出现的值作为缺失值,将一 个决策表扩大为很多决策表。该算法应谨慎选择,因为那些缺失的属性值会使整体数据量增大很多倍。假设一个决策表中属性a和b有属性值的缺失,设惘卜%=4。那么该不完整决策表会扩大为12个完整的决策系统,其中包括所有 a和b可能的组合。该算法与4.5.4中所描述的算法类似,但需要同时考虑决策属性的分类。对于决策 属性为朱定义”的情况,不会对其进行补齐。4.6离散化用于离散信息系统的属性。算法的输入是决策表,其输出是另一决策表,是离散过 的决策表。离散数目确定了离散间隔。每个间隔内的数都映射为同一值。实际上,数值属性到 属性的转换可以被视为无条件的。只有输入表格中未被标记的属性会被计算。字符串属性会在算法开始前被标记,在 运算完成后恢复。通过使用标记功能,可以实现用不同的离散方法对不同的属性进行离散,还可实现 部分属性的离散。离散的属性被转换成字符串型。在Rosetta中自动离散化算法是以下其中之一:1 .每个属性被单独运算,在运算中没有考虑决策属性。这种算法被称为单因素无监 督型。2 .在一次计算中,只有一条条件属性参与计算,但在计算中考虑了决策属性。这种 算法被称为单因素有监督型。3 .所有的属性被同时考虑,和决策属性一起参与运算。这种算法被称为多因素有监 督型。Rosetta中不包括多因素无监督型算法。1.1.1 布尔逻辑算法布尔逻辑算法是一种简单的算法,由 Nguyen和Skowron提出。将4.6.5节中节点 的选择和布尔逻辑过程结合起来,仅保留一个子集。该保留的子集是削减后的最小 集,保留了决策表的分辨关系。该算法首先从候选削减集中构造一个布尔函数 f,然后计算这个函数的素蕴涵。在计算素蕴涵中,采用了 Johnson贪婪算法(详见4.7.2)有时布尔逻辑离散算法可能出现没有分割。这意味着这些属性是不必要的。算法不 对其进行操作。对于这些未离散的属性,通常的做法是使用另一种离散方法对其进 行离散化处理。这种离散算法的复杂性为),对于大表格来说,有很大计算量。在 4.6.8中介绍的算法虽然是同样的过程,但使用了高效算法,其复杂度以 电蚓附。离散问题的近似解可以通过计算f函数的近似素蕴涵来获得。这相当于利用较少的 分割,这也在离散表中导入了不一致。1.1.2 手动离散使用户对给定的属性指定划分。输入表被直接修改。1.1.3 信息嫡算法该算法由Dougherty描述1.1.4 等频率离散法1.1.5 纳威离散算法1.1.6 Semi-naVe 算法1.1.7 使用离散文件离散4.7 属性约简4.7.1 遗传约简算法4.7.2 Johnson4.7.3 Holte 一维算法4.7.4 手动约简算法4.7.5 动态约简算法(RSES)4.7.6 完全计算(RSES)4.7.7 Johnson#法(RSES)4.7.8 遗传算法(RSES)4.8 分类器用14节中描述的算法,划分决策表中的全部数据。导出分类矩阵,同时可选择返 回ROC信息,也可生成一些ASC文件,其中包括分类过程的中间处理信息。如果所选的分类器没有相应的决策,会使用预置的决策进行分类。一种常用的预置 决策为根据出现频率最多的决策进行分类。也可以选择特定的决策用于预置决策。在有些情况下,对于同一种情况可能会有很多不用决策值,每个决策值都有一个相 对应的系数。以下是处理这种情况的一些策略。最优原则(Best):选择
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 营销创新


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!