K-均值聚类模型

上传人:lis****210 文档编号:139678201 上传时间:2022-08-22 格式:DOCX 页数:10 大小:472.54KB
返回 下载 相关 举报
K-均值聚类模型_第1页
第1页 / 共10页
K-均值聚类模型_第2页
第2页 / 共10页
K-均值聚类模型_第3页
第3页 / 共10页
点击查看更多>>
资源描述
基于 K-mean 聚类的高频数据挖掘实例模型背景K-均值聚类算法,是数据挖掘十大经典算法之一。其主要任务是根据样本数据的特征指 标,把数据划分为k个类,使得同类的样本特征尽可能的相似,不同类的样本特征尽可能大 的相异。本模型将该算法应用于高频数据,提取上证50 指数样本股, 2013-03-04至2013-03-08 共5天的15分时数据。首先采用K-均值聚类算法,将前3天价格波动曲线相似的股票进行 归类,这里将上证50指数成分股划分为4类。其次,针对每类样本股票,以2013-03-07日 开盘后1个小时内的成交量加权平均价买入,2013-03-08日收盘前1个小时的成交量加权平 均价卖出,计算其收益率。最后,找出收益率为正的类,观察该类的股票样本价格曲线形态, 以便找出有利于投资决策的价格曲线形态或进一步的深入研究。本模型作为了一个例子,旨在引导学生或教师或研究员更深入的研究该模型、学会金融 高频数据的建模方法及应用于其他的实践案例。本例子详细地介绍了时间序列数据特征的提 取方法、基于关键点的降维方法、K-均值聚类算法的迭代过程、matlab绘制图形的编程技术 等。这些处理方法,均有 matlab 程序支持。这里参考了研报基于模式聚类的短线选股模型-数量化投资系列报告之四十二,国信 证券, 2011.8以及期刊一种基于关键点的时间序列聚类算法,计算机科学, 2012 年 3 月第3期。模型假设为了更好的使用K-mean聚类,对价格数据作了归一化处理。模型公式K-均值聚类算法如下:A. 随机初始化K个聚类中心,即K个类中心向量B. 对每个样本,计算其与各个类中心向量的距离,并将该样本指派给距离最小的类C. 更新每个类的中心向量,更新的方法为取该类所有样本的特征向量均值。D. 直到各个类的中心向量不再发生变化为止,这里采用0.01的误差,作为退出条件。模型意义聚类为数据挖掘、数据分析、模型识别、量化投资相关领域的一项非常重要的任务。K-mean 均值聚类算法作为一个经典的算法,掌握其算法理论及实现技术,具有极其重要的 意义。步骤 1股票价格序列的特征化处理步骤描述首先:每个股票代码3天的15分时数据共有51 个价格数据点,对其归一化。其次,从 51 个价格数据点中提取12 个关键的点(主要目的是降维,提高聚类算法的效率及 可靠性,我们一般提取能代表典型趋势价格点),由头+尾+中间10 个变化最大的数据点组成 (详细的处理方法参见一种基于关键点的时间序列聚类算法,计算机科学,2012 年 3 月 第 3 期该期刊)。再次,对提取的关键数据点及原数据点绘制曲线图,以便查看我们选择的关键数据点能否拟 合原来的曲线图。最后,对关键的数据点按股票代码,整理为一个统一的结构,便于聚类算法的使用。输入数据预览查看输入的数据,图为部分上证50样本 15 分时数据歩碍阖EX魏居知学臓申:唤白卅SECCODE SKNAME TDATE MINTIME STARTPRC HtGHPRCLOWPRCENDPRCMJNTQMtNTMUNIX160000020130304 093010.S610.5510.0610.96383150841610177 1362960600000 i600000i赵逢厂201303 04 094510.810.8310.4910.6152869464563936553 1362361500000 J600000% J、1槪康订20130304 100010.6110.810.610.742177575523281133D 1362362400000 J600000;竟程-二20130504 101510.7510,810J210,74148825&9160029654 1362363300000 J60000020130104 103010.7|i1Q.710.5910.59LE2M464.194276634 13&23&32OOOOO 60000020130304 104510.5910.710.5110.6518946412011129&6 1262265100000 S&3000020130304 110010.6410.6910.6110.6432787658S147853 1362366000000 t60000020130304 111510.6310.6610.5710.5010582105112245851 1362966900000 i600000彳戯银行20130304 113010.5810.5S10.510.514567564153 3 872 &4 1362367800000 i600000%i、iffiBrE-ir20130304 131510.510.5110210,4714573210152600293 136237100000 J60000020130204. 131010.4710.5310.3lO.diS145418711521379-96 13B2B75000000 f50000020130304 134510.310.510.1310.M7DD14&6732&2687 1352375900000 J60000020130304 140010.4310.4610.410.44LL791457122863335 13&2276800000 S60000020190304 141510.4210.4S10.410.478219973B5767852 1362977700000 i600000i駭银行20130304 143010.4610.4S10.3B10.4410181757106026899 136237S600000 i返回计算结果图为部分数据,即关键点价格数据。毎裳克迭S:訥白页1/1!珈二一二椒1 21毗段奇三 关砸trial关曲护ism关sa靜NS4关!疙护毎5 恋咸悴 恙焦昭丁恙电应舒跆 悲辟曲.趣曰沪bli號朗艸辽enoDoo0.S279QJ372&.4EB40.114D0.2326D.33720.&535D.97670.&S340.SS27M1S6600D1010.6D.70.45D.30.D5DJ50.15DJ03&25.,35M0D150.70B30.3U20H30.2222(?0.4722DJOM0.972?0LS750.97220.M7?MD286000160.35660.224B027910.12400.1550l27910.9H70US6820.9070.S217CU8837EGCiDM0.833311aD.5aD.16&70.6667D0.&6fi70.50.3231enoDja0.79170.50.1670D.54170.208JDJ0120.6250.4167Q.B250.6250167600D5Q(X75960.6354D.320.B333D.5S330Dl&70510-1D.asss10旳汨JB1360003110,45210.54460.276a033930.1786Oillfrl062舸听0,09820.2054&17S6&00036K48510313401鸿ClftlSW0.22350-50750.7239CLX)307010.903MJ28fine MA10.72314).72310.134&Da曲15D.30770.152BD.53450.B1540.61 S40.6922600D5D0.58330.6667D0J5033330.33330.66 6-71D.T50.51670.8333O.9M7&OOD5&10.6091D.72730.3545D03727DJ5450.3273DJ6360.445503邮J45560010410.&75S0,24&80415636360,493500.2208CL70130,50550.S7O1M481600111165竝90.27620.1430,31430.26670o.isi阳醐D加們X2381034290.320210.21350.D112D0.5056D.S53905506DJ4720.561B0.243107如图形展示取前5 个股票代码,观察拟合图。这5 个股票代码的价格形态各异,其中蓝色为原始数据绘 制的曲线图,红色曲线为关键点价格数据绘制的曲线图。从图可以看出,关键点价格曲线基 本能拟合原始的曲线图。11109T103、10.3JQ+050601131600000芳拟令L绘怜10.61D.454.&1020405060瞪亲世码600010的碘合曲线图4.854,9511.111W.8V1.04102030405060展票代码600015的战合日违画步骤2K-均值聚类算法迭代过程步骤描述迭代计算,最后每个股票代码都被划分到指定的类。返回的计算结果ResukrV快51疔毎页4右.Hid頂右疋上一页TJH末口I1|1股叢代看删黑护161找霆闫fi托2悟$戈龜空档相玄畑胡::霑5龙岂亨撷禮了M哇戸枷曲 0.=|;71O 哎电1丄壬煤盍飯屯H6OTCCD162790J372D.阳混0.31400123260.33720.9535口 占 767D.sa 曲&.SBS70.91M6OTC101加即050JM50250.150.4D.30.250356MC150.7D630.5D.aoas0222200.47220.56940.97220.E75D.5722&.SJ72O.W236MC16财5650J24A4J.279-101540Q155M7S10.9170.E632D.7D.S217O.S3J76WC190.33331100.50M6fi70.66670D.6S67财OE加96MC230.79170.500.517012DS3O.ZOB30.6350.41167D.6250.6250.91&76MD2D-0.73&50.63540.65420型汩0&.41670.51C40.B95B1D.S9530.731264X)0211.Q.4&210.544i0276B也拍彩ai?3fiCK1L610迹D. 0942山加関O.17M6MQ26DuMSlOJill0.134Sa0.1*94di也&.M750.723CI.S4010.9701a射236MC4fl10.72310.7231O.lBibQJ615ft. 1377O.152S0.53460.815Ci.61540.6922&MC6D&.583J0.666700J5maa2血&.6S6710J5D.91670.甜财0.91676MC6a10.60914).727202545G127270.45450.32730.46bD.4455&J545Q745564)010410.67530.246S04156Od9-:35OOJ22O&JOIS0.5065&.S7D10.&J&16D011110.5429-0.2762651的&J143&2K7O0.1&10.4256D.5905IK23P10.34296S0123&.32&2145.2135cuDiiaGflSKEtkS53SO.55G60.54720.56ifi直也曲cm怕zwn-in RaciTA胆#/t jncfi-3R 口Fl QHft步骤 3对每个类的样本计算收益步骤描述针对每个类的样本,以 2013-03-07 日开盘后 1 个小时内的成交量加权平均价买入 2013-03-08日收盘前1 个小时的成交量加权平均价卖出,计算其收益。返回的计算结果K-均值聚类:歩骤演示结悪选用Resu|t沖5行任1 -10.737952 33.647353 -2.S85574 -27.77402步骤 4图形展示每个类的价格曲线及收益率返回的计算结果步骤描述图形展示每个类的前3 天价格曲线图及收益率。图形展示0.9o.a0.70.60.42681D12%瓷1羽3日怖略曲筑收益罕大:-10.73$%0.&0.568120.210类1:剧烈的“V”形,并且到达波峰后,已经出现下跌趋势。类2能2价格扫注.收益率力;33.6474%类2:波浪式的左高右低斜“V”形,并且未达波峰,同时还在波浪式上扬0.60.50.22681012类 3 :已达波峰,并且呈波浪式下跌趋势辿o.au0.7I,05:;Y0.4I0.226S1200AZv.-A j73 rH 止 Jit I; . 27 774%类 4 :已达波峰,并且呈波浪式下跌趋势
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 机械制造 > 机械制造


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!