资源描述
机器学习概论 An Introduction to Machine Learning 邓志鸿 北京大学信息科学技术学院 2013 2014学年第二学期 第一讲 内容 课程简介 机器学习简介 浅议机器学习 课程简介内容提要 教辅人员 参考资料 课程网站 课程要求及目的 课程考核机制 课程内容简介 教辅人员 任课老师 邓志鸿 办公室:理科 2号楼 2318 电话: 62755592 Email: 个人主页: http:/ 助教: 沈戈晖 实验室:理科 2号楼 2320 Email: 电话 : 62757756 魏亮晨 实验室:理科 2号楼 2320 Email: 电话 : 62757756 时间: 每周周一 34节 双周周三 56节 地点 :一教 204 课程简介内容提要 教辅人员 参考资料 课程网站 课程要求及目的 课程考核机制 课程内容简介 参考资料 参考 教材 Machine Learning (Tom Mitchell) 补充 材料 Journals Machine Learning; Journal of Machine Learning Research (JMLR) IEEE Transactions on Pattern Analysis and Machine Intelligence( PAMI) Conferences 主流: AAAI, IJCAI, ICML, NIPS 自然语言处理: ACL, COLING, EMNLP 机器视觉与多媒体: CVPR, ICCV, ACM Mutilmedia 数据挖掘与检索: KDD, SIGIR, WWW 课程简介内容提要 教辅人员 参考资料 课程网站 课程要求及目的 课程考核机制 课程内容简介 课程网站 网址: http:/ 机器学习概论 课程简介内容提要 教辅人员 参考资料 课程网站 课程要求及目的 课程考核机制 课程内容简介 课程要求 高等数学 微分、积分 概率统计 数据结构 编程语言 c, c+, java, Python 会用一种即可 有基本概念就 可以了 课程目的 了解和掌握机器学习的基本理论、算法和技术 问题背景 种类 基本方法和算法 理解已有机器学习 /数据挖掘系统的工作原理 已有很多相关软件,能很方便实现分类、聚类等机 器学习任务。 Weka工具包 Matlab 不仅仅会用这些软件,还要知道它是如何实现的。 能在今后的工作中应用机器学习的理论和方法解决 实际问题。 课程简介内容提要 教辅人员 参考资料 课程网站 课程要求及目的 课程考核机制 课程内容简介 课程考核机制 课堂小问题 希望大家踊跃参加 三个项目 分类 聚类 频繁模式 挖掘及应用 考试 期末考试 课程成绩构成 平时 10 项目 40 分类项目 15 聚类项目 10 模式挖掘项目 15 期末考试 50 项目说明 政策 1-3人组成一个团队 (team)。 每个小组独立完成项目。 鼓励讨论,但禁止小组间抄袭。 数据 适时发布在课程网站上 课程简介内容提要 教辅人员 参考资料 课程网站 课程要求及目的 课程考核机制 课程内容简介 课程内容简介 数据生成与预处理 分类 聚类分析 关联分析 课程内容数据生成与预处理 数据生成 结构化数据 关系数据 非结构化数据 文本 图像 数据预处理 数据清洗 数据变换 数据归约 特征选择 (Feature Selection) 特征抽取 (Feature Extraction) 数据离散化 课程内容分类 符号逻辑方法 谓词逻辑规则 Find-S, Candidate-Elimination, Decision Tree, Sequential Covering Algorithms 一阶谓词规则 FOIL 贝叶斯方法 相关基本概率概念以及贝叶斯公式 朴素贝叶斯方法 贝叶斯网络 隐马尔可夫模型( HMM) k近邻 (kNN) 主题模型 (选讲 ) 课程内容介绍分类 神经网络 感知器(线性) 前馈多层神经网络(任意函数) 反向向 传播 算法 深度学习(选讲) 支持向量机 (SVM) 统计学习理论 线性 SVM 非线性 SVM 核函数 分类器集成 基本原理 基本 技术: Voting、 Bagging、 Boosting 课程内容介绍分类 其它话题(选讲) 半监督学习 生成模型 基于图的方法 预测 分类 算法评估 基本度量 查全、查准、 评估方法 基本概念 基本方法 Holdout, Cross-validation, Bootstrap 课程内容聚类 相似性度量 距离 向量距离 编辑距离 相似系数 聚类间相似性度量 核心算法 层次聚类方法 层次凝聚聚类算法, 划分聚类方法 K-Means, 密度聚类方法 DBSCAN 基于模型的方法 EM, SOM, 性能评估 课程内容关联分析 基本概念 支持度、置信度、关联规则、频繁模式、 频繁模式挖掘经典算法 Apriori算法 垂直算法 (Eclat and dEclat) FP-Growth算法 基于节点链表的算法 Algorithms based on node lists 最长模式和闭模式 交互挖掘 增量挖掘 高级话题 序列模式挖掘 我的重要 贡献 第一讲 课程简介 机器学习简介 浅议机器学习 机器学习简介内容提要 必要性 基本定义 发展历程 基本任务 相关领域 应用 必要性社会需求 机器人 各类机器人 对象识别 人脸检测 指纹识别 语音识别 趋势 人 更多的休闲时间 机器 更多的智能工作 IBM Watson Natural Language Processing, Information Retrieval, Machine Learning and Reasoning Algorithms. Models Answer 之前也有发生 ; 所以网络管理员认 为可能是由客户端 “ xx.xx.154.19”的 错误配置导致的。 评价挖掘系统 COMP COMP Chinese-orient Option Mining system of Peking university 背景介绍 系统框架 模块介绍 实验分析 背景介绍 WWW上存在两类信息 事实 (Facts) 门户网站、公司主页、个人主页等 评价 (Opinions) 论坛,邮件,博客, 当前搜索引擎 对事实的搜索,事实可通过主题关键词来表达 搜索引擎检索无法有效检索到评价 评价很难用关键词表达出来 人们对诺基亚手机的总体评价 人们对“周正龙事件”的看法 背景介绍 目前人们可以通过论坛、 BBS、博客等等 WWW服务方便地发表自己的观点和体验。 这些评价信息包含了非常有价值的信息 个人 购买商品时,可以参考 WWW众多网友的意见,而不局限 于周围的朋友 企业 产品在用户中的优点和缺点 政府 政策在群众中的反映 评价挖掘 挖掘 WWW文本资源中的评价信息 应用广泛 评价挖掘任务 特征 评价的对象 如“诺基亚 N73”, “彩铃”, 评价 表达情感的词(一般是形容词) 如“好”,“差”,“一般”等 “ 诺基亚 N73手机很好用 ” 评价信息 挖掘处理 特征:诺基亚 N73 评价:很好 系统框架 数据采集与 清洗模块 评价信息 数据库 特征提取 模块 评价挖掘 模块 词典 特征库 用户查询 接口 用户 评价信息 WWW 特征评价 数据库 数据采集与清洗模块介绍 手动选择评价网 站或网页 网站或网页 列表 原始评价 信息库 网络 爬虫 网页 预处理 自然 语言 处理 预处理后 评价库 评价信息 数据库 预处理模块: 过滤网页标签 过滤无关评价 按照评价的逻辑结构组 织评价 自然语言处理模块: 分词 词性标注 特征提取模块介绍 特征分为两类 由单个名词描述的特征 由名词性短语描述的特征 使用基于统计的方法,提取由名词或名词性短语表示 的特征 频繁序列挖掘:挖掘频繁名词或名词序列,作为候选特征 过滤处理:过滤高频词或其它不大可能是特征的候选特征 频繁 模式 挖掘 处理 评价 数据库 名 词 提 取 评价中 出现的 名词库 候选 特征库 过滤 处理 特征库 无效 特征库 实验数据 数据源 塞班智能手机网 N73专区 http:/ 太平洋社区 N73专区 http:/ 数据量 原始数据 63679条 过滤后有效数据为 59129条 结果分析 特征 情感评价值 总评价主题 数 积极评价主 题数 消极评价主 题数 电 2.8730 51 17 2 图标 1.7103 59 17 9 铃声 0.1481 193 45 10 信号 0.0232 72 11 8 下表是对 4个特征的情感分析的结果 其中: 电,图标 是情感评价值最高的两个特征;而 铃声,信号 是情感 评价值最低的两个特征 最容易影响人们对手机的印象是这两类特征: 一是容易出问题,使手机用户产生困扰的特征 二是容易出个性,使手机用户与众不同的特征。 结果展示 SIGMA系统框架 科研文献资源库 数据预处理 元数据库 科研学术 知识库 用户界面 数据源 网络爬虫 API接口 聚类分析 自动排级 演化分析 主题建模 SIGMA系统的逻辑视图与知识库 知识库设计 逻辑视图 系统特色 本系统在学术文献信息网络的统一框架下,实现多层次,全方位 的科研资源检索服务,为与学术研究相关的不同层次的用户提供 灵活 、 全方位 的信息检索服务。 相关系统 国际 Google Scholar DBLP CiteSeer 国内 万方 中国学术文献网 中国知网 C_DBLP “我国计算机软件领域有哪些重要的文献” 提供不了检索结果 能回答如下问题 系统功能特色 邓志鸿详情 英文论文 中文论文 被引论文 论文详情 引文下载 论文下载 期刊详情 发文期刊 单位详情 合作作者 合作作者详情 研究方向 研究方向详情 搜索“邓志鸿” 系统 展示 系统资源 作者人数 : 111,836 一级论文总数: 87,371 有详细出版信息并提供了万方全文下载地址 二级论文总数: 944,891 可通过集成的 google接口进行搜索。 科研单位总数: 17,683 系统界面 系统展示专业领域浏览 系统展示专业领域浏览 系统展示研究热点与趋势 系统展示研究热点与趋势 系统展示专业科研力量浏览 第一讲 课程简介 机器学习简介 浅议机器学习 关于“学习” 学习算法表示评价优化 表示:知识建模,即采用什么形式来概括( 或抽象表示)数据。某类表示形式构成假设 空间( hypothesis space)。 评价:度量学习结果的标准或依据,通常对 不同的问题有不同的评价函数。 优化:根据评价函数在假设空间中找得分最 高的表示示例(分类器)。 机器学习算法组成部分 重要问题 泛化( Generalization) 机器学习的目标是对训练集合中样例的泛化 。所谓泛化,指学习到的结果(知识)对非 训练集合中的未知样例的预测尽可能对。 原因 训练样例仅仅占全部样例的极小极小一部分,甚 至可以忽略不计 DTraining Dall 重要问题 过拟合( Overfitting) 过度关注训练样例的特征,使得学到的知识 泛化性差 例如: 在训练样例上的准确率为 100 在测试样例上的准确率为 50 常用策略 通过交叉验证进行处理 奥卡姆剃刀 (Occams Razor) 重要问题 维度灾难 (Curse of dimensionality) 许多在低维空间表现很好的算法,当输入是高维数 据的时候,就变得计算不可行或效果很差。 原因 随着样例维度的增长,样例空间将以指数增长。因此,同 等规模的训练集只能覆盖越来越少样例,即所占比例将以 指数减少,从而造成正确泛化的难度以指数增长。 样例空间为 100维的布尔空间 样例的个数为 2100 1万亿的训练样例这样超大规模的训练集合也仅是样例空间 的 10-18 解决方案 降维 重要问题 理论保证( Theoretical Guarantees) 机器学习采用的是归纳推理。因此,难于保 证结果的正确性。 从概率统计的角度上认识机器学习在理论保 证方面的问题。 意义 不是作为机器学习实践应用中决策标准 而是理解算法和推动算法发展的源泉 下一讲 数据生成与预处理 See you next time
展开阅读全文