本文是周志华《机器学习》(西瓜书)第1章 绪论(Introduction)的学习笔记,涵盖本章所有核心知识点,配有通俗类比与公式推导。

1引言与基本术语

机器学习致力于研究如何通过计算手段,利用经验来改善系统自身的性能。

核心术语速查

西瓜书用语 英文 含义(用西瓜举例)
数据集 data set 一筐西瓜的记录集合
样本 / 示例 sample / instance 一个具体的西瓜
属性 / 特征 attribute / feature 色泽、根蒂、敲声……
属性值 attribute value 青绿、蜷缩、浊响……
属性空间 / 样本空间 attribute space 所有色泽×根蒂×敲声组合张成的 3 维空间
标记 / 标签 label “好瓜”/“坏瓜”
样例 example 样本 + 标记(一个有标签的西瓜记录)

三类学习任务

监督学习 有标记(分类/回归) 给出标准答案 无监督学习 无标记(聚类/降维) 没有标准答案 半监督学习 少量有标记 有部分提示

🍉 通俗类比

监督学习 = 老师给了标准答案,你对照答案来学;无监督学习 = 没有答案,你自己从数据里找规律(聚类);半监督学习 = 只有少数题目有答案,你要用没有答案的大量题目辅助学习。

2假设空间与归纳偏好

归纳学习

从具体事实(训练样本)中归结出一般性规律(模型)。广义上,所有监督学习都可看作归纳学习。

假设空间

由所有可能的假设组成的空间。对于西瓜问题,一个假设就是”色泽=?, 根蒂=?, 敲声=? → 好瓜/坏瓜”这样一条规则。如果属性有取值可能,加上通配符 *(表示取任意值均可)和 ∅(表示不存在满足条件的好瓜),版本空间是所有与训练集一致的假设集合。

📌 核心定义

版本空间:训练集能”筛”出来的那部分假设。”版本”的意思是——这些假设在训练集上看不出区别(都正确),但未来可能表现不同。我们需要归纳偏好来从中选一个。

3归纳偏好

机器学习算法在学习过程中对某些类型假设的偏好,是算法设计的”灵魂”。

奥卡姆剃刀

📐 公式

“若无必要,勿增实体”——偏好更简单的模型

没有免费午餐定理(NFL)

📐 公式

fEote(LaX,f)=fEote(LbX,f) \sum_f E_{ote}(\mathfrak{L}_a \mid X, f) = \sum_f E_{ote}(\mathfrak{L}_b \mid X, f)

核心含义:在所有可能的问题上,所有学习算法的期望性能完全相同。换言之:

⚠️ 注意事项

脱离具体问题,谈论”哪个算法更好”是没有意义的。算法 A 在某些问题上优于算法 B,则必然在另一些问题上劣于算法 B。

🍉 通俗类比

NFL 定理就像在说:没有一种兵器在所有战场上都是最强的。长剑在平原上无敌,匕首在狭窄巷道里称王。机器学习的艺术就是——为你的具体问题选择最趁手的兵器(算法)。

💡 技巧提示

**为什么 NFL 不”绝望”?**因为我们关心的不是”所有可能问题”的均匀分布,而是现实世界中那些有规律的问题(能归纳的问题)。在这些问题上,不同算法确实有优劣之分。

4发展历程

推理期 (1950s-60s) 逻辑理论家 通用问题求解器 知识期 (1970s-80s) 专家系统 知识工程 学习期 1980s- 从数据中学
时期 核心思想 代表工作
推理期 赋予机器逻辑推理能力 Logic Theorist, GPS
知识期 知识就是力量——专家系统 DENDRAL, MYCIN, XCON
学习期 让机器自己从数据中学 决策树 → SVM → 深度学习

📌 核心定义

“知识瓶颈”:知识期的失败揭示了——由人把知识总结出来再教给机器(知识工程),成本太高且难以穷尽。不如让机器直接从数据中自己学。

5本章总结

机器学习 = 模型 + 策略 + 算法 模型 + 策略 + 算法 假设空间是什么 怎么选好假设 怎么求解

📝 考试高频考点

  • 监督 vs 无监督 vs 半监督的核心区别(是否有标记)
  • 版本空间的定义:与训练集一致的所有假设集合
  • 归纳偏好的必要性(为什么需要偏好)
  • 没有免费午餐定理(NFL):所有算法在所有问题上期望性能相同
  • 奥卡姆剃刀:若无必要,勿增实体

📌 核心定义

一句话总结:本章不涉及具体算法,但它回答了最根本的问题——“机器学习在干什么”。归纳偏好和 NFL 定理两个概念,会贯穿全书始终。