王东 机器学习导论 2021年1月3日 Tsinghua Publisher
Preface 2012年,我回到清华大学语音语言技术中心(CSLT)任教,继续关于语 音和语言信息处理领域的研究.
在这些研究中,机器学习是基础工具,掌握 机器学习方法和学会敲代码一样,属于基本功.
因此,不论是在授课还是在 研究中,我们一向重视向学生传授机器学习的基础知识.
当前关于机器学习方面的资料非常丰富:AndrewNG在Coursera上的机 器学习教程、Bishop的《模式识别与机器学习》和周志华老师的《机器学习》 都是非常好的基础教材:Goodfellow等人的《深度学习》是学习深度学习技 术的首选资料:MIT、斯坦福等名校的公开课也非常有价值:一些主要会议 的Tutorial、Keynote也都可以在网上搜索到.
然而,在教学过程中,我深感 这些资料专业性强,入门不易.
一方面可能是由于语言障码,另一方面是因 为机器学习覆盖面广,研究方向众多,各种新方法层出不穷,初学者往往在 各种复杂的名词和算法面前产生畏难情绪,导致半途而废.
2016年7月到8月,我在CSLT组织了一次关于机器学习的内部暑期研讨 班,主要目的不是细致讨论各种具体算法,而是将各种看似高深的方法有机 组织起来,告诉学生们每种方法的基本思路、基本用法及与其它技术的关 联,帮助其走入机器学习的宏伟殿堂.
除了我讲以外,还有冯洋、王彩霞、 王卯宁三位老师,分别讲述图模型、核方法和遗传算法.
研讨班取得了意想 不到的效果,很多学生不仅掌握了基础知识和基本方法,对这些方法与具体 应用研究的结合也有了更深刻的理解,为在本领域的深入研究打下了基础.
本书的主体内容是基于该研讨班形成的总结性资料,从2016年8月开始 整理,历经数次大规模修正,直到2019年1月定稿.
全书共分十一章,内容 如下: 第一章:介绍机器学习研究的总体思路,发展历史与关键问题:
LA Preface 第二章:介绍线性模型,包括线性预测模型,线性分类模型和线性高斯 概率模型: 第三章:介绍神经网络的基础知识、基础结构和训练方法: 第四章:介绍深度神经网络的基础方法和最新进展: 第五章:介绍核方法,特别是支持向量机模型: 第六章:介绍图模型的基本概念和基于图模型的学习和推理方法: 第七章:介绍非监督学习方法,特别是各种聚类方法和流形学习: 第八章:介绍非参数非贝斯模型,重点关注高斯过程和狄利克雷过程: 第九章:介绍遗传算法、遗传编程、群体学习等演化学习方法: 第十章:介绍强化学习,包括基础算法及近年来兴起的深度强化学习方 法: 第十一章:介绍各种数值优化方法.
基于作者的研究背景,这本书很难说是机器学习领域的专业著作,而是 一本学习笔记,是从一个机器学习技术使用者角度对机器学习知识的一次 总结,并加入作者在本领域研究中的一些经验和体会.
与其说是一本专业著 作,不如说是一本科普读物,用简洁的语言和深入浅出的描述为初学者打开 机器学习这扇充满魔力的大门,打开大门以后,我们会发现这是个多么让人 激动人心的领域,每天都有新的知识、新的思路、新的方法产生,每天都有 令人振奋的成果.
我们希望这本书可以让更多学生、工程师和相关领域的研 究者对机器学习产生兴趣,在这片异彩纷呈的海域上找到属于自己的那颗贝 壳 本书的出版凝聚了很多人的心血.
冯洋、王卵宁、王彩霞、邢超、李蓝 天、汤志远、张记袁、李傲冬、刘艾婷、白子薇、罗航、石颖、林婧伊、汪 洋、张安迪、陈译翔等老师和同学对本书资料进行了整理,并形成了初始版 本.
张羲同学对全书进行了校对.
蔡云麒博士对全部引用和图片做了整理.
张雪薇、林婧伊、蔡佳音、景鑫、傅豪、何丹、于嘉威、齐诏娣、吴嘉瑶、 张阳、姜修齐、刘逸博、张铺镧等同学参与了文字整理工作.
感谢朱小燕老师为本书做序并提出了很多中肯建议.
感谢苏红亮、戴海 生、利节、黄伟明等老师对部分章节的审读和建设性意见.
感谢语音语言中 心的郑方、周强及其他老师,中心宽松的治学环境是本书得以完成的前提.
感谢清华大学出版社的刘翰鹏老师为本书出版所做的大量工作.
感谢我的家人,他们为我承担了学术以外的生活压力,没有他们的 支持,就没有本书的出版.
由于作者在知识和经验上的局限性,书中难免会出现各种错误和疏漏, 敬请各位读者批评指正.
Symbols 标准斜体小写字母代表(1)标量(2)单个随机变量的取值.
标准大写斜体字母代表(1)集合(2)单个随机变量.
黑体小写字母代表向量或序列 A 黑体大写字母代表矩阵.
af 花体大写字母代表空间.
集合X-{x1.-}中第i个元素,向量x中的第i个元素.
x 集合X-[x1-}中第i个元素,或矩阵x中第i列.
x 矩阵x的第(.)个元素.
x(1).X(0,x(.0元素提取符号()提取向量、集合、矩阵中的元素.
f(x) 函数一般用f.gh等小写字母表示.
f(x) 当确知函数返回值为一个向量,且该返目值出现在公式中参与向量计 算时,通常用黑体形式表示.
x 上标表示(1)选代过程的选代序号(2)聚类中的分类号(3)采样 算法中的采样序号等.
Chapter1 机器学习概述 机器学习的目的是让机器通过经验积累来学习知识和掌握技能.
通过学 习,机器可以获得类似人类的能力,如感知、记忆、推理、决策等.
近年来, 机器学习技术取得飞速发展,取得了一系列令人目的研究成果.
这些成就 的取得一方面得益于移动互联网的发展所提供的大量廉价数据,另一方面得 益于计算资源的极大丰富,这两者结合使得从前难以实现的算法和模型得以 推广,并快速应用到社会生产生活实践中.
本章将向读者简述机器学习的历史与发展现状,探讨机器学习技术飞速 发展的动力、方向以及对人类社会的影响.
另一方面,我们将给出机器学习 技术的基本概念、基本研究方法及一些基础模型,并讨论面对一个机器学习 任务时的基本思路.
1.1什么是机器学习 机器学习”一词可追溯到半个世纪前.
1959年,ArthurSamule[575]在 《IBM Journal of Research and Development》上发表了篇名为“Some Studies in Machine Learning Using the Game of Checkers”的文章.
该文提出一种会学 习的西洋棋电脑程序,人们只需告诉该程序游戏规则和一些常用知识,经 过8-10小时的学习后,该程序即可学到足以战胜程序作者的棋艺.
这款西洋 棋游戏是世界上第一个会自主学习的计算机程序,宣告了机器学习的诞生.
半个多世纪后,机器学习飞速发展,给人类带来前所未有的深刻变革,这一 切成就与ArthurSamule当初“让机器自主学习"的启蒙性思想密不可分[437] 什么是机器学习?
Samule在上述奠基性论文中提出,机器学习 (MachineLearning)的目的是“让计算机拥有自主学习的能力,而无须对 1