北京大学机器学习

资源描述

机器学习概论 An Introduction to Machine Learning 邓志鸿北京大学信息科学技术学院 2013 2014学年第二学期第一讲内容课程简介机器学习简介浅议机器学习课程简介内容提要教辅人员参考资料课程网站课程要求及目的课程考核机制课程内容简介教辅人员任课老师邓志鸿办公室：理科 2号楼 2318 电话： 62755592 Email：个人主页： http:/ 助教：沈戈晖实验室：理科 2号楼 2320 Email：电话： 62757756 魏亮晨实验室：理科 2号楼 2320 Email：电话： 62757756 时间：每周周一 34节双周周三 56节地点：一教 204 课程简介内容提要教辅人员参考资料课程网站课程要求及目的课程考核机制课程内容简介参考资料参考教材 Machine Learning (Tom Mitchell) 补充材料 Journals Machine Learning; Journal of Machine Learning Research (JMLR) IEEE Transactions on Pattern Analysis and Machine Intelligence（ PAMI） Conferences 主流： AAAI, IJCAI, ICML, NIPS 自然语言处理： ACL, COLING, EMNLP 机器视觉与多媒体： CVPR, ICCV, ACM Mutilmedia 数据挖掘与检索： KDD, SIGIR, WWW 课程简介内容提要教辅人员参考资料课程网站课程要求及目的课程考核机制课程内容简介课程网站网址： http:/ 机器学习概论课程简介内容提要教辅人员参考资料课程网站课程要求及目的课程考核机制课程内容简介课程要求高等数学微分、积分概率统计数据结构编程语言 c, c+, java, Python 会用一种即可有基本概念就可以了课程目的了解和掌握机器学习的基本理论、算法和技术问题背景种类基本方法和算法理解已有机器学习 /数据挖掘系统的工作原理已有很多相关软件，能很方便实现分类、聚类等机器学习任务。 Weka工具包 Matlab 不仅仅会用这些软件，还要知道它是如何实现的。能在今后的工作中应用机器学习的理论和方法解决实际问题。课程简介内容提要教辅人员参考资料课程网站课程要求及目的课程考核机制课程内容简介课程考核机制课堂小问题希望大家踊跃参加三个项目分类聚类频繁模式挖掘及应用考试期末考试课程成绩构成平时 10 项目 40 分类项目 15 聚类项目 10 模式挖掘项目 15 期末考试 50 项目说明政策 1-3人组成一个团队 (team)。每个小组独立完成项目。鼓励讨论，但禁止小组间抄袭。数据适时发布在课程网站上课程简介内容提要教辅人员参考资料课程网站课程要求及目的课程考核机制课程内容简介课程内容简介数据生成与预处理分类聚类分析关联分析课程内容数据生成与预处理数据生成结构化数据关系数据非结构化数据文本图像数据预处理数据清洗数据变换数据归约特征选择 (Feature Selection) 特征抽取 (Feature Extraction) 数据离散化课程内容分类符号逻辑方法谓词逻辑规则 Find-S, Candidate-Elimination, Decision Tree, Sequential Covering Algorithms 一阶谓词规则 FOIL 贝叶斯方法相关基本概率概念以及贝叶斯公式朴素贝叶斯方法贝叶斯网络隐马尔可夫模型（ HMM） k近邻 (kNN) 主题模型 (选讲 ) 课程内容介绍分类神经网络感知器（线性）前馈多层神经网络（任意函数）反向向传播算法深度学习（选讲）支持向量机 (SVM) 统计学习理论线性 SVM 非线性 SVM 核函数分类器集成基本原理基本技术： Voting、 Bagging、 Boosting 课程内容介绍分类其它话题（选讲）半监督学习生成模型基于图的方法预测分类算法评估基本度量查全、查准、评估方法基本概念基本方法 Holdout, Cross-validation, Bootstrap 课程内容聚类相似性度量距离向量距离编辑距离相似系数聚类间相似性度量核心算法层次聚类方法层次凝聚聚类算法，划分聚类方法 K-Means，密度聚类方法 DBSCAN 基于模型的方法 EM, SOM, 性能评估课程内容关联分析基本概念支持度、置信度、关联规则、频繁模式、频繁模式挖掘经典算法 Apriori算法垂直算法 (Eclat and dEclat) FP-Growth算法基于节点链表的算法 Algorithms based on node lists 最长模式和闭模式交互挖掘增量挖掘高级话题序列模式挖掘我的重要贡献第一讲课程简介机器学习简介浅议机器学习机器学习简介内容提要必要性基本定义发展历程基本任务相关领域应用必要性社会需求机器人各类机器人对象识别人脸检测指纹识别语音识别趋势人更多的休闲时间机器更多的智能工作 IBM Watson Natural Language Processing, Information Retrieval, Machine Learning and Reasoning Algorithms. Models Answer 之前也有发生 ; 所以网络管理员认为可能是由客户端 “ xx.xx.154.19”的错误配置导致的。评价挖掘系统 COMP COMP Chinese-orient Option Mining system of Peking university 背景介绍系统框架模块介绍实验分析背景介绍 WWW上存在两类信息事实 (Facts) 门户网站、公司主页、个人主页等评价 (Opinions) 论坛，邮件，博客，当前搜索引擎对事实的搜索，事实可通过主题关键词来表达搜索引擎检索无法有效检索到评价评价很难用关键词表达出来人们对诺基亚手机的总体评价人们对“周正龙事件”的看法背景介绍目前人们可以通过论坛、 BBS、博客等等 WWW服务方便地发表自己的观点和体验。这些评价信息包含了非常有价值的信息个人购买商品时，可以参考 WWW众多网友的意见，而不局限于周围的朋友企业产品在用户中的优点和缺点政府政策在群众中的反映评价挖掘挖掘 WWW文本资源中的评价信息应用广泛评价挖掘任务特征评价的对象如“诺基亚 N73”， “彩铃”，评价表达情感的词（一般是形容词）如“好”，“差”，“一般”等 “ 诺基亚 N73手机很好用 ” 评价信息挖掘处理特征：诺基亚 N73 评价：很好系统框架数据采集与清洗模块评价信息数据库特征提取模块评价挖掘模块词典特征库用户查询接口用户评价信息 WWW 特征评价数据库数据采集与清洗模块介绍手动选择评价网站或网页网站或网页列表原始评价信息库网络爬虫网页预处理自然语言处理预处理后评价库评价信息数据库预处理模块：过滤网页标签过滤无关评价按照评价的逻辑结构组织评价自然语言处理模块：分词词性标注特征提取模块介绍特征分为两类由单个名词描述的特征由名词性短语描述的特征使用基于统计的方法，提取由名词或名词性短语表示的特征频繁序列挖掘：挖掘频繁名词或名词序列，作为候选特征过滤处理：过滤高频词或其它不大可能是特征的候选特征频繁模式挖掘处理评价数据库名词提取评价中出现的名词库候选特征库过滤处理特征库无效特征库实验数据数据源塞班智能手机网 N73专区 http:/ 太平洋社区 N73专区 http:/ 数据量原始数据 63679条过滤后有效数据为 59129条结果分析特征情感评价值总评价主题数积极评价主题数消极评价主题数电 2.8730 51 17 2 图标 1.7103 59 17 9 铃声 0.1481 193 45 10 信号 0.0232 72 11 8 下表是对 4个特征的情感分析的结果其中：电，图标是情感评价值最高的两个特征；而铃声，信号是情感评价值最低的两个特征最容易影响人们对手机的印象是这两类特征：一是容易出问题，使手机用户产生困扰的特征二是容易出个性，使手机用户与众不同的特征。结果展示 SIGMA系统框架科研文献资源库数据预处理元数据库科研学术知识库用户界面数据源网络爬虫 API接口聚类分析自动排级演化分析主题建模 SIGMA系统的逻辑视图与知识库知识库设计逻辑视图系统特色本系统在学术文献信息网络的统一框架下，实现多层次，全方位的科研资源检索服务，为与学术研究相关的不同层次的用户提供灵活、全方位的信息检索服务。相关系统国际 Google Scholar DBLP CiteSeer 国内万方中国学术文献网中国知网 C_DBLP “我国计算机软件领域有哪些重要的文献” 提供不了检索结果能回答如下问题系统功能特色邓志鸿详情英文论文中文论文被引论文论文详情引文下载论文下载期刊详情发文期刊单位详情合作作者合作作者详情研究方向研究方向详情搜索“邓志鸿” 系统展示系统资源作者人数 : 111,836 一级论文总数： 87,371 有详细出版信息并提供了万方全文下载地址二级论文总数： 944,891 可通过集成的 google接口进行搜索。科研单位总数： 17,683 系统界面系统展示专业领域浏览系统展示专业领域浏览系统展示研究热点与趋势系统展示研究热点与趋势系统展示专业科研力量浏览第一讲课程简介机器学习简介浅议机器学习关于“学习” 学习算法表示评价优化表示：知识建模，即采用什么形式来概括（或抽象表示）数据。某类表示形式构成假设空间（ hypothesis space）。评价：度量学习结果的标准或依据，通常对不同的问题有不同的评价函数。优化：根据评价函数在假设空间中找得分最高的表示示例（分类器）。机器学习算法组成部分重要问题泛化（ Generalization）机器学习的目标是对训练集合中样例的泛化。所谓泛化，指学习到的结果（知识）对非训练集合中的未知样例的预测尽可能对。原因训练样例仅仅占全部样例的极小极小一部分，甚至可以忽略不计 DTraining Dall 重要问题过拟合（ Overfitting）过度关注训练样例的特征，使得学到的知识泛化性差例如：在训练样例上的准确率为 100 在测试样例上的准确率为 50 常用策略通过交叉验证进行处理奥卡姆剃刀 (Occams Razor) 重要问题维度灾难 (Curse of dimensionality) 许多在低维空间表现很好的算法，当输入是高维数据的时候，就变得计算不可行或效果很差。原因随着样例维度的增长，样例空间将以指数增长。因此，同等规模的训练集只能覆盖越来越少样例，即所占比例将以指数减少，从而造成正确泛化的难度以指数增长。样例空间为 100维的布尔空间样例的个数为 2100 1万亿的训练样例这样超大规模的训练集合也仅是样例空间的 10-18 解决方案降维重要问题理论保证（ Theoretical Guarantees）机器学习采用的是归纳推理。因此，难于保证结果的正确性。从概率统计的角度上认识机器学习在理论保证方面的问题。意义不是作为机器学习实践应用中决策标准而是理解算法和推动算法发展的源泉下一讲数据生成与预处理 See you next time

展开阅读全文

北京大学 机器学习

最新文档

北京大学机器学习