毕业设计-软件工程-外文翻译

资源描述

大连理工大学本科外文翻译为客户服务支持进行的数据挖掘 Data mining for customer service support学院（系）：软件学院专业：软件工程学生姓名： XXX 学号： xxx 指导教师： XXX 完成日期： 2010-3-20 大连理工大学Dalian University of Technology6 / 7为客户服务支持进行的数据挖掘摘要在生产环境的传统客户服务支持系统中，一个客户服务数据库通常包括两种形式的服务信息：（1）无结构的客户服务报表用来记录机器故障和维修方法。（2）为日常管理操作而产生的销售、雇员和客户方面的数据结构。这次研究怎样将数据挖掘技术应用于将有用的数据从数据库中提取出来以支持两种客户服务活动：决策支持和机器故障分析。一个数据挖掘过程是基于数据挖掘工具DBMiner，是为了给决策支持提供结构化的管理数据而调查的。另外，用于将中性网络、基本事件推理和基本规则推理结合起来的数据挖掘技术正在被提出。它将可能会为机器故障分析探询到无结构的客户服务记录。这个被提出的技术已经履行用来支持全球范围内WEB的高级错误的分析。关键字：数据挖掘，数据中的知识发现，客户服务支持，决策支持，机器故障诊断1 介绍客户服务支持正在成为大多数国内外制造公司生产贵重机器和电子设备的一块整体部分。许多公司都有一个为世界范围内的客户提供安装、检查、维修的服务部门。虽然大部分的公司都有工程师来处理日常维护和小范围内的故障，但是为了更复杂的维护和维修工作，专家的意见也常常要从制造公司那里得到。为了使消费者满意，要对他们的要求进行立即回复。因此，热线要建立服务中心来帮助回答消费者所遇到的普遍问题。这个服务中心是用于接收关于错误机器的报告或者是通过电话从客户得到的咨询。当有问题出现时，服务工程师就会通过热线咨询系统为客户建议一系列检查点，这些建议都是基于过去的经验而提出的。这是从客户服务数据库中提取出来的，它包括那些与现行的问题相近或相似的服务记录。如果这个问题被解决了，客户就可以试着解决其他问题，与服务中心进行确认。如果问题仍然存在，中心就要应客户的要求，派出服务工程师进行就地修复。在修复过程中，服务工程师要掌握客户机器过去的记录，相关的说明和那些可能需要用来进行修复的其他部分。这种过程很不方便。在每个服务环节结束后，就需要用客户服务报告来记录新的问题以及新的修复提议或者是可用来纠正它的一些建议。这个数据库是用于宣传的目的和维护共同的知识基础。这个服务中心在数据库中拥有客户服务报告。除了能够维护日常问题和它的修复方法方面的知识基础外，客户服务数据库也能够储存销售，雇员，客户和服务报告方面的数据。这些数据不仅仅是用于日常的管理操作中，更能帮助公司在工作安排，服务工程师的晋升，营销，生产方面的决策以及对不同机器模型的维护。客户服务数据库作为一个对不重要的信息以及那些能被利用起来帮助客户服务部门支持它们自身活动的知识的储存库。这项研究的目的是讨论怎样将数据挖掘技术应用于从客户服务数据库中提取知识以支持两种活动：决策支持和机器故障分析。这项工程作为一个在多元化公司，应用科学领域，南洋科技大学，新加坡之间进行的合作型工作。这个公司生产和提供主要应用于电子工业当中的设备的内部和外部的安装。在传统的帮助台服务中心，服务工程师提供客户支持服务通过使用长途电话。这样的支持方式是低效，低能和成本高，周期长，花费高，以及服务质量差。随着互联网技术的出现，使在万维网提供客户服务支持成为可能。本文介绍了基于网络的智能故障诊断系统，所谓WebService，就是通过互联网提供的客户服务支持。在互联网支持系统中，基于混合案例推理（CBR）和人工神经网络（ANN）的方法运用于机械故障智能化诊断。与其使用传统的CBR技术为索引、检索和适应性,不如采用混合CBR-ANN集安与推理的方法提取知识服务周期的记录的客户服务数据库和随后回忆近似的服务记录中使用这些知识检索阶段。2 数据挖掘数据挖掘，同样以数据库领域当中的知识发明而著称。它是一个快速形成的领域。这项技术是受到对新技术的需求以用于帮助分析，理解甚至是对从商业和科技应用中收集来的大量储存信息的设想。它是一个发现有趣的知识的过程，比如说形式，联合，转换，异常和来自于数据库总所储存的大量数据的重要结构，数据仓库，或者是其他信息仓库。它可以被用来帮助公司做更好的决策以使他在市场中有竞争力。在商业和研究团体中发展的主要数据挖掘功能包括总结，联合，分类，预测和分组。这些功能可以通过使用各种技术而实现，例如数据库定向技术，机械学习和统计技术。近年来，大量数据挖掘应用和原型已经向不同的领域发展，包括营销，银行业，金融，制造和保健。另外，数据挖掘同样被应用于其他数据方面，例如时间，空间，电信，网络和多媒体数据。总之，数据挖掘过程，数据挖掘技术以及即将被应用的功能大部分依靠应用领域和可获得的数据种类。3 客户服务支持服务记录现在在客户服务数据库中得到规定和储存。每项服务记录由客户帐户信息和服务细节所组成。它包括两方面的信息：错误情况和检查点信息。前者包括服务工程师对机器故障的描述，然而后者暗示某些行为或将被应用与维修机器的服务，这些都是基于事实存在的由客户给出的错误情况之上的。检查站信息包括检查站组的名称和检查站自身描述，带有优先级和一个可选帮助文档。检查站组的名称是用来细分一系列检查站组，每个检查站组都与一个决定顺序的优先级联系起来，这个顺序可以用来帮助文件在怎样执行这个检查组的问题上给予可视化的分析。关于服务记录的错误条件和检查站信息将在图表2中给予图示。另外，客户服务信息库也储存与销售，客户和雇员有关的数据：在客户服务数据库中，六个主要的表格用来为它做解释。还有两个，叫做机械故障和检查站，用来储存基于一般机械故障检查站之上的知识。这些是无结构的文本数据。现行的四个表格用来储存关于客户，雇员，销售和维护等方面的信息。而这四个仅仅是储存有结构的数据。有超过70000的服务记录。由于每项的错误-条件有几个检查站，有50000多个检查站。有超过关于4000雇员，500客户，300个不同的机械模型和10000个销售交易方面的信息也在储存之内。3.1 结构数据挖掘一系列可通过商业手段获得或是在公共领域中得到的游行数据挖掘工具都有在KDNuggets web站点中列出。这些工具可以用来挖掘销售，维护中有结构的数据，和消费者以及在客户服务数据库中的客户的特性。当遇上有大量工具支持多种方法的时候很有趣，i.e.不止一项数据挖掘技术。例如，来自思维机器公司的Darwin支持中神经网络，回朔树，k-means算法，和为分类，预测和分组功能所进行的基本案例推理。有一些工具仅仅是为了一个具体的数据挖掘功能。这就提供了一定的灵活性；用户可以为他们的问题的领域选择不同的数据挖掘工具以达到最佳效果。数据挖掘工具的选择必须要根据应用领域和它的相关特性。某些应用仅仅只需要一种数据挖掘功能；其他的也许就会需要不只一种。在这项研究当中，就选择DBMiner。这个系统是由来自加拿大Simon Fraser大学的高级数据库系统研究所的DBMiner研究组提出的。这个系统，将数据仓库，在线分析程序和数据挖掘技术联合起来，以支持来自大量相关数据库中在多项概念层次上的各种知识的发现。DBMiner系统支持多数主要功能。这个系统通过使用许多先进的数据挖掘技术而得到使用。另外，它提供多维数据显示支持并且通过开放式数据库连接界面与标准数据资源相互作用。3.2 无结构化数据挖掘虽然DBMiner对于结构化数据的大型数据库来说是一个极好的数据挖掘工具，但是对于将信息从客户服务数据库的文本数据中提取出来就不适合了。由于关于普通错误的信息和支持以及它们所倡导的修正方案都作为错误条件和检查站，以及为了机器故障分析而需要将信息从数据库中提取的新技术都储存在文本格式的文件中。这就是所谓的文本挖掘。过去，基本案件推理已经被成功的应用于为客户服务支持而进行的错误分析当中。CBR系统依靠建立诊断案例的大型仓库以避免提取和编码专家领域信息的重要工作。它是作为机械故障分析最正确的技术之一，因为它是通过在解决问题和人工智能中获得的经验。然而，CBR系统的应用严格的说是依靠它的适应性还有案件结构和用于大型的案件数据库中检索的算法。大多数的CBR系统都使用最接近的算法从案件数据库的索引中进行检索；这样很没有效率，特别是对于大型数据库来说。其他CBR系统使用分层索引，决策树。虽然，这能进行有效的数据检索，但是建立一个分层索引需要专家在项目设计阶段的信息。神经网络方法在提供具体的例子的时候就会提供一些有效的学习能力。神经网络受监督与否都取决于培训方法。它执行检索是基于最近匹配而完成的，因为它以代码本或样本向量的形式为输入模式存储了重量向量。这种匹配是基于一个决定输出单元的竞争过程之上的，这个输出单元与输入向量最为匹配，就和就近规则比较类似。然而，由于信息通则神经网络中的研究空间大大减少。相比之下，为了完成更精确的数据检索，CBR系统需要在工项目数据库中储存所有的项目。为了有效检索数据而仅仅只储存相关项目的CBR系统缺少精确性和可学性。因此，神经网络非常适用于检索和索引工程。在这里，一种用于联系数据库推理、神经网络和基本规则推理的数据挖掘技术正在被定义。这两个只是CBR循环框架中的一部分。神经网络正被应用于索引和基于用户错误描述之上的大部分正确服务记录的数据检索，而不是使用CBR系统的就近技术，基本规则推理是用于引导检查站解决方案的再利用。4 为决策支持而进行的数据挖掘信息,比如说销售最好的设备，一种特殊设备的客户们,在不同设备销售量间的比较，以及不同服务工程师的业绩都是管理层所最最需要的。41 数据挖掘的过程将潜藏的信息从大型数据库中提取出来的数据挖掘过程,而这个过程主要着眼于那些能作为有用信息的有趣版本。它由七步组成。41.1 建立挖掘目标大量的挖掘目标已被确定下来：营销：确定那些销售额较低的机器设备并找到造成的原因；然后通过改进设计和这些机器模型的耐用性来增加销量以邮寄的形式将机器模型寄给目标客户，他们对这种形式很感兴趣。客户支持：在机器模型的基础上向客户提供可能的服务支持，这个问题的实质是地理位置的选择。资源管理：根据工程师们的专业特长和经验为服务工程师分配任务。根据他们的表现给服务工程师升职。41.2 数据的选择这个步骤要确定各种数据的集合或者是数据样本，数据挖掘可根据这些进行在数据库中有许多表格。然而，并不是全部都适用于数据挖掘，因为它们不够大。在基本学习过后，我们发现结构型数据表格EMPLOYEE和CUSTOMER对于数据挖掘很不合适，而MACHINE和SERVICE_REPORT对数据挖掘就很适合。41.3 数据单元处理这个步骤是将杂乱的，错误的及不完全的数据剔除。太多不同种类数据的出现会影响当前信息的可视性。接着，这些只有少量记录的种类被删除了。不仅如此，所有失去价值的记录都被删除，为了避免在可视性方面的问题。由于这种记录相对较少，所以对它们的删除不会对结果造成什么影响。41.4 数据转换储存在不同表格中的数据都在同一个具体的版本中。而有的时候为了挖掘出附加信息，将这些数据转换到一个新的版样中是很有用的。例如，一个新的专栏svc_repair_time是通过对不同之处的核算才建成的，在Service_report表格上的SVC_START_DT和SVC_END_D都是以天数来计量。这项新的贡献在分析服务工程师的业绩时是很有效的。41.5 数据入库数据入库是一个一个显示，计划，建立，使用，管理，维护和加强数据库的过程。适合挖掘的数据都是从客户服务数据库的各种表格上收集来的，并且储存于DBMINER的数据库中。接着OLAP数据中心就从数据仓库中产生了，数据仓库中含有经过高度总结的客户型数据。为了提供数据的3维空间感，可以通过将数据3次幂从数据中心提取完成。在线分析挖掘通过使用为信息发现而建立的3维数据结构来进行。通过使用3维mc_fault_gp，months和svc_member_id来展现数据立体的3维空间感。每个单独的立方体的大小/尺码代表大量记录，而立方的颜色暗示了svc_repair_time这项贡献对于包含于其中的记录的全部价值。为了更深一步的探究，我们可以在数据立方体上进行转绕，钻孔，切割和切块。由于更高层的服务维修时间暗示着机器将长时期停止运转，这会导致客户的不满意。公司应该结合高质量服务维修时间这个理念来看待这类时间以至能提高服务效率。41.6 数据挖掘DBMiner被用来进行数据挖掘操作，包括总结，联合，分类，推断和群组。数据挖掘功能的两个例子，说明如下：第一个例子说明了一个功能的使用总结。它指出了一个使用条形图的服务工程师所服务的机型。这个概括对了解服务工程师的专业知识很有帮助。这些信息可以用来分配适当的工程师服务特定的计算机模型。从图中可以看出，该机型AVK_2013S一直只有服务工程师KL006服务。然而，这也表明，服务工程师KL006还没有任何其他机型工作。另一个例子是图6，说明数据挖掘的使用。此规则确定各属性是如何相关的。在这里，文本格式之间的属性有很大的关联。该规则也有8的最低支持率和98以上的可信度。高可信度规则体现在数据中：首先的两个关联由客户TAIT指出，在1996年的所有故障中，都是由服务工程师KL006单独提供服务。这表明，服务工程师KL006将是最合适的被指派担任TAIT的客户服务。接下来的两个规则表明，该机型AVK_2013S是由服务工程师KL006单独提供服务的，并且故障是在1996年报告的。此外，第8条表明，10530服务工程师在一天之内解决了所有的故障问题。41.7 对数据挖掘结果进行评估已经使用了各种不同的数据挖掘功能来提供数据，对所获得的信息的分析如下，其结果是：营销：OLAP分析法和总结法已经被运用于鉴别那些销售额低以及犯错率高的机器工具上。Clustering被应用于判别那些客户更适合与交叉转换。客户支持：联合规则，分类以及群组都被运用于确定那些最近报导说有故障的人。在客户地理位置定位和机器模型购买的基础上，更高质量的服务得到了提供。资源管理：总结法可以被应用于判别不同服务工程师的专业特长。联合规则为那些能在一天内维修所有机器故障的高效工程师提供有用的信息。推测分析法可被用于那些能在同等条件下维修机器故障的不同服务工程师进行比较。基于这一点，公司就可以根据服务工程师的特长和效率来分配工作任务。5 对机器故障分析进行数据挖掘错误条件中的无结构文本数据和客户服务数据库中的检查站信息都提供有用的机器服务信。一项在神经网络，基于案例推理以及基本规则推理三方结合的基础上建立起来的数据挖掘技术已被运用于客户服务数据库当中，目的是为了支持高级机器故障分析。数据挖掘由两个主要过程组成：线外信息提取过程和在线故障分析过程。第一过程是将信息从可户服务数据库中提取出来以形成一个包含神经网络和基本规则的信息基地。神经网络模型和CBR循环中的规则工作都支持第二个过程，第二个过程使用CBR循环中的4个阶段来分析调查可户所反映的鼓掌。它以输入的形式接受来自用户的故障描述，将这些描述以图的形式编入信息数据库中最近的错误条件，并且帮用户获得相应的检查站解决方法。客户关于故障调查分析过程的反馈被用来修正故障及它的解决办法。这项新的结果最终将以信息的形式保存以用于提高对今后遇到的故障问题的解决。参考文献：略

展开阅读全文

毕业设计-软件工程-外文翻译

最新文档