数据挖掘相关论文[特选材料]

资源描述

数据挖掘论文题目：数据挖掘技术在电子商务中的应用系别：计算机学院专业： 11网络工程1班学生姓名：黄坤学号： 1110322111 指导教师：江南 2014年 11月06 日数据挖掘技术在电子商务中的应用一、研究原因电子商务在现代商务活动中的正变得日趋重要，随着大数据时代的到来，商务信息显得尤为重要，在电子商务中谁掌握了有利的市场信息，谁就能在这个竞争激烈电商行业中占据绝对的优势。而数据挖掘技术是获取信息的最有效的技术工具。本文讨论了数据挖掘的主要方法，具体阐述了数据挖掘技术在电子商务中的作用及应用。在信息经济时代，对企业来说，谁对市场变化反应速度快，谁将在激烈的市场竞争中占据有利的地位，竞争的结果最终将促使企业价值从市场竞争输家转移到赢家，这样就使企业面临一个问题：如何才能把大量的数据资源，转化成自身价值呢？要想使数据真正成为一个公司的资源，只有充分利用它为公司自身的业务决策和战略发展服务才行，否则大量的数据可能成为包袱，甚至成为垃圾。因此，面对“人们被数据淹没，人们却饥饿于知识”的挑战，数据挖掘和知识发现(DMKD)技术应运而生，并得以蓬勃发展，越来越显示出其强大的生命力。二、2.1 国内研究现状KDD（从数据库中发现知识）一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。迄今为止,由美国人工智能协会主办的KDD已经召开了7次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到七八百人,论文收录比例从2X1到6X1,研究重点也逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了KDD专题或专刊。IEEE的Knowledge and Data Engineering 会刊领先在1993年出版了KDD技术专刊,所发表的5篇论文代表了当时KDD研究的最新成果和动态,较全面地论述了KDD 系统方法论、发现结果的评价、KDD系统设计的逻辑方法,集中讨论了鉴于数据库的动态性冗余、高噪声和不确定性、空值等问题,KDD系统与其它传统的机器学习、专家系统、人工神经网络、数理统计分析系统的联系和区别,以及相应的基本对策。6篇论文摘要展示了KDD在从建立分子模型到设计制造业的具体应用。不仅如此,由美国人工智能学会主办的KDD国际研讨会规模由原来的专题讨论会发展到国际学术大会，研究重点也逐渐从发现方向转向系统应用，注重多重发现策略和技术集成，以及多种学科之间的相互渗透，并且有很多学校和科研机构也正投入大量资金进行数据挖掘技术的进一步开发和深入研究。国内对数据挖掘的研究稍晚，没有形成整体力量。但是国内的高校，例如清华大学、中科院计算机技术研究所等，都已开展了不同程度的知识发现的基础理论及其应用研究。其中，北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究。与国外相比，我国对数据挖掘领域的研究仍处于初级阶段，绝大多数工作集中于局部算法设计，进行综合的系统集成设计却寥寥无几。由于核心技术的欠缺，使得数据挖掘在国内一些领域只是初步应用，如银行、金融、GIS等领域。所以研究数据挖掘技术，并将其应用到科研、经济、教育等领域的重要性是可见一斑的。电子商务（E-Commerce）是以指利用电子数据交换（Electronic Data Interchange，EDI）、电子邮件（E-mail）、电子资金转账（Electronic Funds Transfer，EFT）和Internet等主要技术在个人、企业和国家之间进行无纸化的信息交换，包括商品信息及其订购信息、资金信息及其支付信息、安全及其认证信息等，即以现代信息技术为手段，以经济效益为中心的现代化商业运转模式。其最终目标是实现商务活动的网络化、自动化与智能化。随着Internet的迅速发展，电子商务的应用不断深入。在电子商务应用系统中，相关的用户数据日益增多，数据挖掘技术具有从大量复杂数据中发现特定规律的能力。商业电子化的趋势不仅为客户提供了便利的交易方式和广泛的选择，同时也为商家提供了更加深入了解客户需求信息和购物行为特征的可能性。2.2 数据挖掘技术2.2.1 统计技术统计技术对数据集进行挖掘的主要思想是：统计的方法对给定的数据集合假定了一个分步或者概率的模型（比如一个正态分布），然后根据模型采用相应的方法进行挖掘。2.2.2 关联规则数据关联是数据库中存在的一类很重要的可以发现的知识。若两个或者多个变量的取值之间存在某种规律性，就成为关联。关联可分为简单关联，时序关联，因果关联。关联分析的目的是找出数据库中隐含的关联网，优势并不知道数据库中的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有可信度。2.2.3 基于历史的分析MBR（Memory-based Reasoning）MBR的本质是：现根据经验知识寻找相似情况，然后再将这些情况的信息应用于当前的例子中。使用的三个问题是：寻找确定的历史数据；决定表示历史数据的最有效方法；决定距离函数、联合函数和邻近的数量。2.2.4 遗传算法GA（Genetic Aigorithms）该算法是基于进化理论，并采用遗传结合、遗传变异及自然选择等方法优化结果。主要思想是：根据适者生存的原则，形成由当前群体中最适合的规则组成新的群体，以及这些规则的后代。规则的适合度（Fitness）是对训练样本分类准确性的评估。2.2.5 聚集检测将物理或者抽象对象的集合，分组成为由类似的对象组成的多个类的过程被成为聚类。在由聚类生成的数据对象集合中，这些对象具有相似性，并与其他集合中的对象具有相异性。这种相异度是根据描述对象的属性值来计算的，距离是经常被采用的度量方法。2.2.6 连接分析它的基本理论是图论，图论的思想是寻找一个可以得出好的结果但不是完美结果的算法。这种不完美但是可行的思想模式，可以使之运用到更广的用户群中。2.2.7 决策树决策树是能够被看成一棵树的预测模型。树的每个分支都是一个分类的问题，内部节点表示在一个属性上的测试，树叶代表类或者分布。决策树算法是目前应用最广泛的归纳推理算法之一，是一种逼近离散值函数的方法，也可将它看作是一个布尔函数。它是以实例为基础的归纳学习算法，通过对一组训练数据的学习，构造出决策树形式的只是表示，在决策树的内节点进行属性值的比较并根据不同的属性值判断从该节点向下的分枝，从而在决策树叶节点得到结论。所以从根到叶节点的一条路径就对应着一条规则，整棵决策树就对应着一组吸取表达式规则。2.2.8 神经网络神经网络是指由大量神经元互联而成的网络，类似于服务器互联而成的因特网。它主要由“神经元”的互联，或按组织的结点构成。通常神经网络模型由三个层次组成：输入层，中间层，输出层。在神经元求得输入值后，再汇总计算总输入值；由过滤机比较总输出值，确定网络的输出值。可以通过模拟判断，来不断修正计算的“权值”来达到学习的目的，增加判断的正确性。2.2.9 粗糙集粗糙值是一种研究不确定性问题的工具，它根据已有的给定问题的知识，对问题论域进行划分，然后对划分后的每个组成部分确定其对某个概念的支持程度。它用于从数据库中发现分类规则的基本思路是将数据库中的属性分为条件属性和结论属性。对数据库中的元组根据各个属性不同的属性值分成相应的子集，然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。2.2.10 回归分析回归分析分为线性回归、多元回归和非线性回归。线性回归中，数据是用直线建模；多元回归是线性回归的扩展，涉及多个预测变量。非线性回归是在基本线性模型上添加多个项式项形成为线性回归模型。1. 数据挖掘阶段分析数据挖掘阶段作为整个项目的重中之重，通常数据挖掘的流程包括项目理解、数据理解、数据准备、建立模型、模型评估和模型发布等。3.1 项目理解阶段此阶段主要确定项目目标，订立项目成功的标准，完成项目形势评估及制定项目执行计划等等。项目成功的标准是模型的准确率达到多少、纯度达到多少等，而形式评估则主要对项目实施未来可能遇到的问题作一个简单的评估，业务及行业规则不断变化，模型在应用过程中会遇到各种问题等。至于项目计划则是对整个项目需要的时间，资源作一个整体的规划把控。除此之外，此阶段还需要对相关专业术语进行解释说明等。3.2 数据理解和数据准备数据挖掘对数据的依赖性非常高，为了能够实现数据挖掘的目标，要求收集的数据足够全，质量尽量高。通常在这个阶段花费的时间占整个项目的一半还多。原始数据采集完后，还需要对数据进行描述和处理，比如进一步探查已选变量与目标变量之间是否存在关系，各变量数据的基本探查，如空值数目、唯一值数目、最小最大值的统计以及数据质量检验等。数据准备数据集描述清洗数据构造数据选择数据格式化数据整合数据 3.3 建立模型阶段数据挖掘项目的建立模型都要经过三个阶段：建立模型，测试并调整模型，应用模型。建立模型，就得选择相应的建模技术，可能应用到决策树、神经网络及回归分析等统计技术，在项目运营的各个阶段，数据不同，运营宣传方式也不同，这就可能利用模型的组合，各个项目阶段采用不同的模型进行预测分析。3.4 模型评估阶段模型的应用通常需要较长周期的检验才能准确的评估其是否满足商业标准，在传统行业，这个评估通常在模型应用一年后作出。此外，对于设计的模型，不但要评估模型的准确性和通用性，还要努力找出相关商业理由解释说明模型的欠缺，把生成的结果与建模初订立的标准进行对比，同时根据目前的状况对数据仓库变量做适当的修正调整，以满足日常数据分析需要。数据挖掘运营分析调研验证3.5 模型发布阶段在模型通过评估满足商业目标情况后，进入模型发布阶段。模型发布阶段的内容主要包括相关模型检测和维护计划（常规调整和适应性的调整），以确保模型的准确预测和预警。同时，还要利用模型指导日常运营发布相关数据分析报告。确定研究目标提出策略意见分析数据现象与目标的关联找出真实原因2. 数据挖掘技术在电子商务中的应用4.1电子商务中数据挖掘技术的适用价值目前对于数据挖掘的对象和使用的方法层出不穷，随着电子商务的兴起，电子商务将是未来数据挖掘的主要发展方向之一，它在各种商业领域都存在广泛的使用价值。4.1.1客户细分随着以客户为中心的经营理念不断深入人心，分析客户、了解客户并引导客户的需求己成为企业经营的重要课题。通过对电子商务系统收集的交易数据进行分析，可以按各种客户指标(如自然属性、收入贡献交易额、价值度等)对客户分类，然后确定不同类型客户的行为模式以便采取相应的营销措施促使企业利润的最大化。4.1.2客户获得比如通过数据挖掘可以发现购买某种商品的消费者是男性还是女性，学历、收入如何，有什么爱好，是什么职业等等。甚至可以发现不同的人在购买该种商品的相关商品后多长时间有可能购买该种商品，以及什么样的人会购买什么型号的该种商品等等。也许很多因素表面上看起来和购买该种商品不存在任何联系，但数据挖掘的结果却证明他们之间有联系。在采用了数据挖掘后，针对目标客户发送的广告的有效性和回应率将得到大幅度的提高，推销的成本将大大降低。4.1.3客户保持数据挖掘可以把你大量的客户分成不同的类，在每个类里的客户拥有相似的属性，而不同类里的客户的属性也不同。你完全可以做到给不同类的客户提供完全不同的服务来提高客户的满意度。数据挖掘还可以发现具有哪些特征的客户有可能流失，这样挽留客户的措施将具有针对性，挽留客户的费用将下降。4.2数据挖掘技术在电子商务推荐系统的具体应用数据挖掘技术应用于电子商务方方面面，在这里以电子商务活动中推荐系统应用数据挖掘技术为案列进行简单分析。4.2.1推荐系统在电子商务活动中的作用一般说来,推荐系统在电子商务活动中的作用可以归纳为以下几点:（1）把浏览者转变成购买者己有明确购物目标的客户也许可以借助检索系统找到自己需要的东西,但对于大多数只是四处逛逛看一看的冲浪者,或是对自己的需要比较模糊的购买者,很难有耐心在几十页长的商品目录逐项查找是否有自己感兴趣的东西。而推荐系统通过合适的推荐,可以将一个浏览者变为购买者。（2）提高电子商务系统的交叉销售能力电子商务推荐系统在用户购买过程中向用户提供其它有价值的商品推荐,用户能够从提供的推荐列表中购买自己确实需要但在购买过程中没有想到的商品,从而有效提高电子商务系统的交叉销售。例如站点可以根据客户当前购物车中的物品向他们推荐一些和这些己选购的物品相关的物品。如果有一个比较好的推荐系统,则企业的平均定购量就可能增加。（3）提高客户对电子商务网站忠诚度与传统的商务模式相比,电子商务系统使得用户拥有越来越多的选择,用户更换商家及其方便,只需要一两次鼠标的点击就可以在不同电子商务系统之间跳转。电子商务推荐系统分析用户的购买习惯,根据用户需求向用户提供有价值的商品推荐。如果电子商务推荐系统的推荐质量很高,用户可以很容易找到自己想要的商品,那么用户会再次访问这个网站,并会推荐给其他人,这对于网站来说是一个很大的优势。4.2.2数据挖掘技术应用于推荐系统具体表现数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现先前未知的有用模式。电子商务推荐系统将数据挖掘技术运用到电子商务领域,以数据挖掘为基础衍生出许多算法。（1）基于关联规则的推荐算法关联规则是数据挖掘技术的一种,该技术挖掘发现大量数据中项集之间有趣的关联或相关联系。关联规则挖掘的一个典型例子就是购物篮分析。该过程通过发现顾客放入其购物篮中不同商品之间的联系,分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买,这种关联的发现可以帮助商家制定营销策略。关联规则的挖掘是一个两步过程:首先,找出所有频繁项集。这些项集出现的频繁性至少和预定义的最小支持计数一样。其次,由频繁项集产生强关联规则。这些规则必须满足最小支持度和最小置信度。关联规则挖掘算法的瓶颈出现在第一步。由于第一步需要反复扫描交易数据库,所以增加了系统的开销,降低了系统性能。例如:Aprior算法是一种最有影响的挖掘关联规则频繁项集的算法。该算法使用一种称为逐层搜索的迭代方法寻找频繁项集,它开创性地使用基于支持度的剪枝技术,系统地控制候选项集指数增长。它缺点就是由于数据库数据的增多,需要多次扫描数据库,这样便影响了系统的性能。（2）基于内同的推荐算法基于内容的推荐系统的产生根源于信息检索与信息过滤。其具体是根据项之间的相似性来进行推荐的,先用机器学习等技术分析用户已经评分的项的内容,建立用户档案,然后从项集中选择与用户档案相似的项,再从中根据评分选择一定的项推荐给用户,最后根据用户的反馈信息修正推荐。基于内容得推荐技术具有一定的局限性。首先,资源内容必须以机器可以理解的格式表示,而很多信息例如图像、视频等多媒体信息是很难做到这一点的;其次,资源内容的分析范围比较小,不能提供较多的建议;再次,基于内容的推荐不能从质量、样式、审美等角度对项进行过滤。（3）协同过滤推荐算法协同过滤是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同,协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。三、总结数据挖掘是指按企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，并进一步将其模型化的先进有效的方法。电子商务是现代信息技术发展的必然结果，也是未来商业运作模式的必然选择。企业数据量日益庞大，其中真正有价值的信息却很少，利用数据挖掘技术，从大量的数据中经过深层分析，获得有利于商业运作、提高竞争力的信息，发挥企业的独特优势，促进管理创新和技术创新。12材料a

展开阅读全文

数据挖掘相关论文[特选材料]

最新文档