Fundamentals of AI — Writeup
| 模块 ID | 难度 | 预计时长 | 章节数 | 奖励 |
|---|---|---|---|---|
| 290 | Fundamental · Tier 0 | 6 小时 | 24(含 1 个交互式技能评估) | 10 Cubes |
模块链接: academy.hackthebox.com/module/details/290
目录
| # | 章节 | 类型 |
|---|---|---|
| 1 | Introduction to Machine Learning | Theory |
| 2 | Mathematics Refresher for AI | Theory |
| 3 | Supervised Learning Algorithms | Theory |
| 4 | Linear Regression | Theory |
| 5 | Logistic Regression | Theory |
| 6 | Decision Trees | Theory |
| 7 | Naive Bayes | Theory |
| 8 | Support Vector Machines (SVMs) | Theory |
| 9 | Unsupervised Learning Algorithms | Theory |
| 10 | K-Means Clustering | Theory |
| 11 | Principal Component Analysis (PCA) | Theory |
| 12 | Anomaly Detection | Theory |
| 13 | Reinforcement Learning Algorithms | Theory |
| 14 | Q-Learning | Theory |
| 15 | SARSA (State-Action-Reward-State-Action) | Theory |
| 16 | Introduction to Deep Learning | Theory |
| 17 | Perceptrons | Theory |
| 18 | Neural Networks | Theory |
| 19 | Convolutional Neural Networks | Theory |
| 20 | Recurrent Neural Networks | Theory |
| 21 | Introduction to Generative AI | Theory |
| 22 | Large Language Models | Theory |
| 23 | Diffusion Models | Theory |
| 24 | Skills Assessment | Interactive |
1. Introduction to Machine Learning
知识要点
- AI(人工智能):开发能执行需人类智能任务的系统,涵盖 NLP、计算机视觉、机器人、专家系统
- ML(机器学习):AI 的子领域,系统从数据中学习而非显式编程,分为三大类:
- 监督学习:从有标签数据学习(图像分类、垃圾邮件检测)
- 无监督学习:从无标签数据中发现模式(客户分群、异常检测)
- 强化学习:通过试错和奖惩反馈学习(游戏、机器人、自动驾驶)
- DL(深度学习):ML 的子领域,使用多层神经网络自动提取特征,代表架构包括 CNN、RNN、Transformer
- 三者关系:DL ⊂ ML ⊂ AI
理解与洞察
- AI ⊃ ML ⊃ DL 的包含关系是贯穿全模块的核心心智模型——每一层都是上一层的特化。AI 是最宽泛的目标(让机器表现出智能),ML 是实现 AI 的主流方法论(从数据学习),DL 是 ML 中自动化程度最高的一族方法(自动特征提取)
- 三种学习范式的选择取决于数据的可用形态:有标签选监督,无标签选无监督,有交互环境选强化。这不是算法优劣之分,而是问题形态决定了方法
- 一个容易混淆的点:深度学习并非总是优于传统 ML。当数据量小、特征明确时,传统 ML(如决策树、SVM)往往更高效且可解释
实践收获
- 建立了 AI/ML/DL 的层级认知框架,面对新技术时能快速定位它属于哪一层
- 掌握了根据问题类型(有无标签、是否有交互环境)选择学习范式的基本判断力
2. Mathematics Refresher for AI
知识要点
本节为参考手册,列举了后续章节涉及的数学符号和概念:
- 基础运算:加减乘除、下标/上标记法
- 线性代数:向量范数、矩阵乘法/转置/逆/行列式/迹、特征值与特征向量
- 微积分与统计:求和符号 Σ、对数(log2、ln)、指数函数
- 概率论:条件概率 P(x|y)、期望 E[X]、方差、标准差、协方差、相关性
- 集合论:基数、并集、交集、补集
理解与洞察
- 这一节的价值在于建立符号到含义的映射——后续章节中公式密集出现时,能快速回溯查阅
- 不同数学分支对应不同的 ML 场景:线性代数支撑神经网络的矩阵运算,概率论是贝叶斯方法的基石,微积分驱动梯度下降优化
- 特征值与特征向量在本节看似抽象,但到 PCA(第 11 节)时会发现它们是降维的核心工具
实践收获
- 获得了一份可反复查阅的数学符号速查手册,降低后续章节的阅读门槛
- 建立了数学工具与 ML 应用场景之间的对应意识
3. Supervised Learning Algorithms
知识要点
- 监督学习从有标签数据学习映射函数,分为 分类(预测类别)和 回归(预测连续值)
- 核心概念:
- 训练数据 / 特征 / 标签:输入输出的基本组成
- 模型 / 训练 / 预测 / 推理:从构建到应用的全流程
- 评估指标:Accuracy、Precision、Recall、F1-score
- 泛化 / 过拟合 / 欠拟合:模型对新数据表现的关键问题
- 交叉验证:将数据拆分为多个 fold,更可靠地评估模型
- 正则化:L1 / L2 惩罚项,防止过拟合
理解与洞察
- 过拟合/欠拟合/泛化这组概念比任何单一算法都重要——它们是评判所有模型好坏的通用标准。一个模型训练集表现再好,泛化差就毫无价值
- 交叉验证是抓住过拟合的实践利器:单次 train/test 切分可能因数据分布偶然性而误判,K-fold 交叉验证通过多次划分取平均,给出更稳健的性能估计
- Precision 和 Recall 之间存在天然的张力(trade-off):提高 Precision 通常降低 Recall,反之亦然。F1-score 是两者的调和平均,适用于需要平衡考虑的场景
- 正则化的本质是在模型复杂度和训练误差之间做权衡——L1 倾向产生稀疏解(自动特征选择),L2 倾向让权重普遍偏小
实践收获
- 建立了"泛化优先"的模型评估意识:训练集表现不是目标,测试集/交叉验证结果才是
- 掌握了交叉验证作为诊断过拟合的标准操作流程
4. Linear Regression
知识要点
- 线性回归:通过线性方程建模预测变量与目标变量之间的关系
- 简单线性回归:
y = mx + c(一个预测变量) - 多元线性回归:
y = b0 + b1x1 + b2x2 + ... + bnxn - 最小二乘法(OLS):通过最小化残差平方和(RSS)找到最佳拟合线
- 四大假设:线性关系、观测独立性、同方差性、误差正态分布
理解与洞察
- 线性回归是所有回归模型的起点和基线(baseline)——即使实际问题非线性,也常先用线性回归建立参照
- OLS 的本质是一个有解析解的优化问题:对于线性回归,不需要迭代优化,可以直接用数学公式求出最优权重。这与后续神经网络需要梯度下降迭代优化形成对比
- 四大假设在实际数据中经常被违反,此时需要对数据做变换(如取对数)或改用更灵活的模型
实践收获
- 理解了线性回归作为最简单预测模型的地位,以及它为什么经常被用作基线模型
- 认识到模型假设不是可忽略的细节——假设不满足时模型结论可能失效
5. Logistic Regression
知识要点
- 虽名为"回归",实际用于 二分类,输出 0~1 之间的概率值
- 核心是 Sigmoid 函数:
P(x) = 1 / (1 + e^-z),将线性组合映射到概率 - 决策边界:由模型参数和阈值概率确定,在高维空间中为超平面
- 阈值通常设为 0.5,可根据业务需求调整
- 假设:二元输出、对数几率线性、特征间低多重共线性、大样本量
理解与洞察
- 名字中有"回归"但其实是分类算法——这是最常见的命名陷阱。之所以叫"回归"是因为底层用线性方程建模对数几率(log-odds),回归的是概率而非连续值
- Sigmoid 函数的核心价值:将任意实数值映射到 (0, 1) 区间,赋予输出概率含义。这个函数后来也成为神经网络中最早使用的激活函数之一
- 阈值是可调节的,这一点非常实用:原文的垃圾邮件示例中阈值设为 0.8,调整到 0.6 则需要更高概率才判定为垃圾邮件。医疗诊断等场景可降低阈值减少漏诊(偏 Recall),误报代价高的场景可提高阈值减少误判(偏 Precision)
- 逻辑回归输出的是概率而非硬分类,这给了决策者更多灵活性——可以根据概率大小采取不同强度的行动
实践收获
- 明确了"回归"和"分类"可以通过 Sigmoid 函数桥接:线性回归 + Sigmoid = 逻辑回归(分类器)
- 理解了阈值调节是连接模型输出与业务需求的关键环节
6. Decision Trees
知识要点
- 树状结构模型,由 根节点 → 内部节点 → 叶节点 组成
- 分裂依据:
- 基尼不纯度:
Gini(S) = 1 - Σ(pi)²,越低越纯 - 熵:
Entropy(S) = -Σ pi * log2(pi),越低越有序 - 信息增益:分裂前后熵的减少量,越大越好
- 基尼不纯度:
- 停止条件:达到最大深度、节点数据量低于阈值、节点已纯
- 优点:无线性/正态假设,对异常值鲁棒,可处理非线性关系
理解与洞察
- 决策树的最大优势是可解释性——可以直接把决策路径展示给非技术人员看,"如果 X > 5 且 Y < 3 则属于 A 类"。这在安全审计和合规场景中非常有价值
- 基尼不纯度和熵在实践中差别不大,但概念上的区别值得理解:基尼衡量"随机挑两个样本类别不同的概率",熵衡量"信息的不确定性"
- 决策树的最大缺陷是容易过拟合——不加限制的树会对训练集完美拟合但泛化极差。这正是随机森林(ensemble of trees)和剪枝技术被发明的动机
实践收获
- 理解了决策树作为一种天然可解释的模型,在需要透明度的场景中不可替代
- 掌握了信息增益作为特征选择准则的直觉:选择分裂后"混乱度"下降最多的特征
7. Naive Bayes
知识要点
- 基于 贝叶斯定理 的概率分类算法:
P(A|B) = [P(B|A) * P(A)] / P(B) - "朴素"假设:特征之间在给定类别下条件独立
- 工作流程:计算先验概率 → 计算似然 → 应用贝叶斯定理 → 取后验概率最大的类别
- 三种变体:
- 高斯朴素贝叶斯:连续特征,假设高斯分布
- 多项式朴素贝叶斯:离散特征,常用于文本分类
- 伯努利朴素贝叶斯:二元特征(存在/不存在)
理解与洞察
- "朴素"独立性假设几乎总是错误的——但算法在实践中仍然表现优异,这是一个反直觉但很重要的认知。原因在于:分类任务只需要相对概率排序正确(哪个类的后验概率最大),不需要绝对概率值精确。即使概率值因独立性假设而偏差,排序关系往往仍然正确
- 朴素贝叶斯在文本分类领域(垃圾邮件、情感分析)长期占据主流地位,因为文本的高维稀疏特征正好适合这类模型——维度高但每个文档只涉及少量词
- 三种变体的选择取决于特征的数据类型,而非问题本身:连续值用高斯,词频用多项式,二元存在性用伯努利
实践收获
- 理解了"假设错误但模型仍有效"这一现象——模型的实用价值不取决于假设的严格成立,而取决于假设偏差是否影响最终决策
- 在安全领域,朴素贝叶斯常用于垃圾邮件过滤和入侵检测的初步筛选
8. Support Vector Machines (SVMs)
知识要点
- 寻找 最大间隔超平面 来分离不同类别,间隔越大泛化越好
- 支持向量:距离超平面最近的数据点,决定超平面位置
- 线性 SVM:数据线性可分时使用,超平面方程
w · x + b = 0 - 非线性 SVM:通过 核技巧 将数据映射到高维空间使其线性可分
- 常用核函数:多项式核、RBF(径向基函数)核、Sigmoid 核
- 优点:无分布假设、擅长高维数据、对异常值鲁棒
理解与洞察
- 最大间隔的直觉非常优雅:间隔越大,模型对新数据的容错空间越大,泛化能力越强。这与过拟合/泛化的讨论直接呼应
- 核技巧的精妙之处:不需要真正在高维空间中计算,而是通过核函数直接计算高维空间中的内积,避免了"维度灾难"带来的计算成本
- SVM 只关心决策边界附近的数据点(支持向量),远离边界的点不影响结果。这使其在高维、小样本场景中特别有效
实践收获
- 理解了"最大间隔"作为泛化能力代理指标的思想,这种思想在 ML 中反复出现
- 核技巧为理解"将问题变换到更容易解决的空间"这一通用策略提供了具体案例
9. Unsupervised Learning Algorithms
知识要点
- 从 无标签数据 中发现隐藏模式,三大任务类型:
- 聚类:将相似数据分组
- 降维:减少特征数量同时保留关键信息
- 异常检测:识别显著偏离正常模式的数据点
- 核心概念:
- 相似度度量:欧氏距离、余弦相似度、曼哈顿距离
- 聚类倾向 / 聚类有效性:评估数据是否适合聚类、聚类结果质量
- 维度 / 内在维度:数据的实际特征数 vs 本质维度
- 特征缩放:Min-Max 缩放、Z-score 标准化,确保特征公平参与计算
理解与洞察
- 与监督学习的关键区别:没有标签意味着无法简单判断"对错"——评估变得困难且主观。聚类的结果是否"好"往往需要领域专家来判断,或依赖代理指标(如轮廓系数)
- 无监督学习更像是"探索性分析"而非"预测性建模":它的价值在于发现数据中人类未曾预见的结构
- 特征缩放在无监督学习中比监督学习中更加关键——距离度量直接受特征尺度影响,一个未缩放的特征可能主导整个聚类结果
- 异常检测在安全领域的应用尤为重要:入侵检测、欺诈识别都是典型场景,且这类场景中异常样本极其稀少、难以标注
实践收获
- 建立了对无监督学习"评估困难"这一本质特征的认知——不要期望像监督学习那样得到清晰的准确率
- 理解了特征缩放不是可选步骤,而是基于距离的算法的必要前置条件
10. K-Means Clustering
知识要点
- 将数据划分为 K 个不重叠的簇,迭代过程:
- 随机选 K 个质心 → 2. 将每个点分配到最近质心 → 3. 重新计算质心 → 4. 重复至收敛
- 选择最优 K 值:
- 肘部法:绘制 WCSS vs K 曲线,找下降速率变缓的拐点
- 轮廓分析:轮廓系数范围 [-1, 1],越接近 1 聚类越好
- 假设与局限:假设簇为球形且大小相近、对特征尺度和异常值敏感
理解与洞察
- K-Means 的核心矛盾:K 值需要预先指定,但真实数据中簇的数量往往未知。肘部法和轮廓分析是启发式方法,不保证给出"正确"答案
- 算法收敛不代表找到全局最优——K-Means 只保证收敛到局部最优。实践中常需多次随机初始化(如 K-Means++ 改进初始化策略)取最优结果
- 球形簇假设是一个强限制:当数据簇呈环形、长条形或不规则形状时,K-Means 会给出误导性的结果
实践收获
- 掌握了 K-Means 作为最基础聚类算法的使用流程,以及用肘部法和轮廓系数选择 K 值的实操方法
- 认识到 K-Means 的局限性,为后续学习更灵活的聚类算法(如 DBSCAN)建立了动机
11. Principal Component Analysis (PCA)
知识要点
- 降维技术:将高维数据投影到低维空间,保留最大方差
- 步骤:标准化 → 计算协方差矩阵 → 求特征值与特征向量 → 按特征值降序排列 → 选取前 k 个主成分 → 变换数据
- 特征值表示每个主成分解释的方差量,特征向量表示主成分方向
- 选择保留成分数:通常选择累计解释方差达 95% 的成分数
- 假设:特征间存在线性关系和显著相关性、对特征尺度敏感
理解与洞察
- PCA 的核心思想是找到数据变化最大的方向——方差最大的方向承载了最多的信息,方差最小的方向往往是噪声,可以丢弃
- 这里第 2 节中看似抽象的特征值/特征向量终于有了实际用途:特征向量定义了主成分的方向,特征值衡量了这个方向上的信息量
- PCA 的代价是可解释性下降:原始特征有明确含义(如"年龄""收入"),但主成分是原始特征的线性组合,不再有直观含义
- 95% 方差阈值是经验法则而非硬规则,具体场景可能需要调整
实践收获
- 理解了降维的核心动机:降低计算成本、消除噪声、使高维数据可视化
- 将线性代数中的特征值/特征向量与实际数据分析技术建立了联系
12. Anomaly Detection
知识要点
- 识别显著偏离正常行为的数据点,三种异常类型:
- 点异常:单个异常数据点
- 上下文异常:特定情境下异常(如冬天 30°C)
- 集体异常:一组数据点整体异常
- 检测方法分三大类:
- 统计方法:假设正常数据服从特定分布(如高斯),用 z-score 等识别偏离值
- 聚类方法:不属于任何簇或属于稀疏簇的点视为异常(如 K-Means)
- 机器学习方法:
- One-Class SVM:学习包围正常数据的边界
- 孤立森林:通过随机分割隔离异常点,路径越短越可能是异常
- 局部离群因子(LOF):比较数据点与邻居的局部密度
理解与洞察
- 上下文异常的概念非常深刻:同样的数据值在不同情境下可能正常也可能异常——30°C 在夏天正常,在冬天异常。这意味着异常检测模型需要理解"正常"的上下文定义
- 异常检测在安全领域的独特价值:攻击手段不断演变,无法穷举所有攻击模式(监督学习的局限),但可以定义"什么是正常"然后检测偏离
- 孤立森林的思想非常直觉化:异常点因为与众不同,在随机分割时很容易被"隔离"——就像人群中一个行为怪异的人很容易被注意到
- 不同方法适用于不同场景:统计方法简单但假设强,孤立森林适合高维数据,LOF 适合密度不均匀的数据
实践收获
- 掌握了三种异常类型的分类框架,能够根据具体场景选择合适的检测策略
- 建立了异常检测在网络安全中的应用意识——入侵检测系统(IDS)的核心思想正是"偏离正常即可疑"
13. Reinforcement Learning Algorithms
知识要点
- 智能体通过与环境交互,依据奖惩反馈学习最优策略
- 分为 基于模型的 RL(先建立环境模型再规划)和 无模型 RL(直接从经验学习)
- 核心概念:
- Agent / Environment / State / Action / Reward:RL 的五个基本要素
- Policy:从状态到动作的映射策略
- Value Function:估计某状态/动作的长期价值(State-value / Action-value)
- Discount Factor(γ):控制对未来奖励的重视程度,0~1 之间
- Episodic vs Continuous Tasks:有终态 vs 无终态的任务
理解与洞察
- RL 与监督/无监督学习的根本区别:没有现成数据集——智能体必须通过与环境交互来"生成"自己的训练数据,这意味着数据质量取决于策略本身,形成了先有鸡还是先有蛋的困境
- 折扣因子 γ 是一个哲学性的参数:γ 接近 1 时智能体有"远见",重视长期回报;γ 接近 0 时智能体"短视",只看眼前奖励。不同任务需要不同的时间视野
- 基于模型 vs 无模型的取舍:有模型可以"想象"结果再行动(高效但模型可能不准),无模型必须真实交互(可靠但样本效率低)
实践收获
- 理解了 RL 的五要素框架,能够将任意交互式决策问题映射到 Agent/Environment/State/Action/Reward 结构中
- 建立了 RL 与游戏、安全攻防(如自动化渗透测试)之间的联系
14. Q-Learning
知识要点
- 无模型 RL 算法,通过估计 Q 值(状态-动作对的期望累积奖励)学习最优策略
- Q 表:存储所有状态-动作对的 Q 值
- 更新公式(Bellman 方程):
Q(s,a) = Q(s,a) + α[r + γ·max Q(s',a') - Q(s,a)] - 属于 off-policy 算法:用下一状态的 最大 Q 值更新,独立于当前策略
- 探索-利用权衡:Epsilon-Greedy 策略——以 ε 概率随机探索,以 1-ε 概率选最优
- 假设:环境满足马尔可夫性质、环境动态不变
理解与洞察
- Off-policy 的含义:Q-Learning 用
max Q(s',a')更新,即假设下一步会选最优动作——但实际执行时可能因为 ε-greedy 选了随机动作。"学的策略"和"用的策略"是分离的,这就是"off-policy"。与之对比,SARSA(第 15 节)用实际执行的动作更新,"学什么用什么",即"on-policy" - 探索-利用困境是 RL 的根本挑战:过度利用(exploit)会陷入局部最优,永远发现不了更好的策略;过度探索(explore)会浪费大量资源在低效动作上。ε-greedy 是最简单的平衡策略,但远非最优
- Q 表方法只适用于状态-动作空间有限的问题。当状态空间巨大或连续时(如图像作为状态),需要用函数逼近(如深度 Q 网络 DQN)替代 Q 表
- Bellman 方程的本质是用未来价值的估计来更新当前价值的估计——这是一种"自举"(bootstrapping)思想
实践收获
- 掌握了 Q-Learning 作为最经典 RL 算法的完整流程:初始化 Q 表 → 选动作 → 获奖励 → 更新 Q 值 → 重复
- 理解了 off-policy 与 on-policy 的区别,为对比 SARSA 打下基础
15. SARSA (State-Action-Reward-State-Action)
知识要点
- 无模型 on-policy RL 算法,与 Q-Learning 的区别在于使用 实际执行的下一个动作 的 Q 值来更新
- 更新公式:
Q(s,a) ← Q(s,a) + α(r + γ·Q(s',a') - Q(s,a)) - On-policy 特性使 SARSA 更保守、更安全,适合对安全性要求高的场景
- 探索策略:Epsilon-Greedy(随机探索)和 Softmax(按 Q 值概率选择)
- 关键参数调优:学习率 α(更新步长)和折扣因子 γ(远近权衡)
理解与洞察
- SARSA 和 Q-Learning 的公式几乎相同,唯一的区别是 Q-Learning 用
max Q(s',a')(最优动作的价值)而 SARSA 用Q(s',a')(实际执行的动作的价值)。这个微小差异带来了行为上的显著不同 - SARSA 的保守性来源:因为 SARSA 会把探索时踩到的"坑"也计入更新,它学到的策略会主动规避危险区域。而 Q-Learning 假设未来总选最优,可能学到更激进但理论上更优的策略
- 经典案例"悬崖行走"(Cliff Walking):SARSA 学会绕远路避开悬崖边,Q-Learning 学会贴着悬崖走最短路——后者理论最优但探索时频繁掉落
实践收获
- 通过 Q-Learning 与 SARSA 的对比,深化了对 on-policy/off-policy 区别的理解
- 认识到在安全关键场景(如机器人控制、自动驾驶)中,保守策略可能比理论最优策略更有实用价值
16. Introduction to Deep Learning
知识要点
- 深度学习使用多层神经网络自动从原始数据中学习特征,无需手动特征工程
- 核心组件:
- 人工神经网络(ANN):由神经元和权重连接组成
- 层结构:输入层 → 隐藏层(多个)→ 输出层
- 激活函数:引入非线性——Sigmoid、ReLU、Tanh
- 反向传播:计算损失函数关于权重的梯度,逐层传播误差
- 损失函数:衡量预测与真实值的差距(MSE / 交叉熵)
- 优化器:SGD、Adam、RMSprop,用于更新权重
- 超参数:学习率、层数、每层神经元数等训练前设定的参数
理解与洞察
- 深度学习的核心动机:自动化特征工程。传统 ML(如 SVM、决策树)需要人工设计特征(如从图像中提取边缘直方图),而 DL 直接从原始数据(像素值)学习特征。这解放了领域专家,但也让模型变成了"黑箱"
- 激活函数引入非线性的必要性:如果没有激活函数,无论堆叠多少层,整个网络仍等价于一个线性变换——多层就毫无意义了。非线性是深度网络表达能力的来源
- 反向传播 + 梯度下降是 DL 训练的核心循环:前向传播算预测 → 损失函数算误差 → 反向传播算梯度 → 优化器更新权重。理解这个循环就理解了 DL 训练的全貌
- 超参数调优至今仍更像"艺术"而非"科学"——没有通用的最优配置,很大程度依赖经验和实验
实践收获
- 理解了传统 ML 与深度学习的分水岭在于"是否需要手动特征工程"——这是选择方法的重要判据
- 建立了 DL 训练循环的完整心智模型:前向传播 → 计算损失 → 反向传播 → 权重更新
17. Perceptrons
知识要点
- 神经网络的基本构建单元:输入 × 权重 → 求和 + 偏置 → 激活函数 → 输出
- 使用阶跃函数作为激活函数,输出为二元值(0 或 1)
- 局限性:单层感知机只能学习线性可分的决策边界,无法解决 XOR 问题
理解与洞察
- 感知机是理解神经网络的最小单元——所有复杂的深度网络都是由这个基本结构堆叠而成
- XOR 问题的意义远超一个数学玩具:它在 1969 年几乎"杀死"了整个神经网络研究领域(AI 寒冬),直到多层网络和反向传播的发明才解决这个问题
- 从感知机到神经元的演变:用连续可微的激活函数(Sigmoid、ReLU)替代不可微的阶跃函数,使得反向传播成为可能
实践收获
- 理解了神经网络最底层的计算逻辑:加权求和 + 非线性变换
- 通过 XOR 问题认识到单层网络的根本局限,理解了为什么需要"深度"
18. Neural Networks
知识要点
- 多层感知机(MLP) 通过引入隐藏层克服单层感知机的局限
- 激活函数:Sigmoid、ReLU、Tanh、Softmax(多分类输出层)
- 训练过程:
- 前向传播:数据从输入层逐层计算到输出层
- 反向传播:误差从输出层逐层回传,计算每层权重的梯度
- 梯度下降:沿负梯度方向更新权重,学习率控制步长
理解与洞察
- MLP 是从感知机到深度学习的桥梁:理论上,一个有足够宽隐藏层的 MLP 可以逼近任意连续函数(万能逼近定理),但实践中"深而窄"往往比"浅而宽"更高效
- ReLU 取代 Sigmoid 成为主流激活函数的原因:Sigmoid 在两端梯度接近 0(饱和区),导致深层网络中梯度消失;ReLU 在正区间梯度恒为 1,缓解了这个问题
- Softmax 作为多分类输出层的设计:将任意实数向量转化为概率分布(所有输出和为 1),是逻辑回归 Sigmoid 函数在多分类场景的推广
实践收获
- 完整理解了神经网络的训练循环:前向传播 → 计算损失 → 反向传播 → 梯度下降更新权重
- 掌握了不同激活函数的选择原则:隐藏层优先 ReLU,二分类输出用 Sigmoid,多分类输出用 Softmax
19. Convolutional Neural Networks
知识要点
- 专为网格状数据(图像)设计的神经网络,三种核心层:
- 卷积层:使用可学习的滤波器提取局部特征(边缘、纹理、形状)
- 池化层:下采样降低维度(Max Pooling / Average Pooling)
- 全连接层:基于提取的特征进行最终分类或回归
- 层级特征学习:浅层检测边缘 → 中间层识别形状 → 深层识别对象
- 假设:网格状数据结构、特征的空间层级性、特征局部性与平稳性
理解与洞察
- 层级特征学习(边缘 → 形状 → 对象)是 CNN 最核心的洞察——网络并非一步到位识别"猫",而是逐层构建越来越抽象的表示。这与人类视觉系统的层级处理机制惊人地相似
- CNN 相对于 MLP 处理图像的优势来自两个关键归纳偏置:局部性(特征是局部的,卷积核只看局部区域)和平移不变性(同一个滤波器在整张图上共享权重,无论"猫"在图片哪个位置都能检测到)
- 权重共享大幅减少了参数量:一个 3x3 卷积核只有 9 个参数但扫描整张图——如果用全连接层处理 256x256 的图像,参数量会爆炸
- 池化层的作用不仅是降维,还提供了一定程度的位置不敏感性——物体稍微移动几个像素不会影响检测结果
实践收获
- 理解了 CNN 为什么在计算机视觉领域取得了革命性成功——层级特征学习 + 权重共享 + 局部感受野的三重设计
- 掌握了 CNN 的典型架构模式:交替堆叠卷积层和池化层,最后接全连接层输出
20. Recurrent Neural Networks
知识要点
- 专为序列数据设计,通过循环连接维持"记忆",在每个时间步接收当前输入和前一隐藏状态
- 梯度消失问题:梯度在长序列中指数衰减,难以学习长期依赖
- 解决方案:
- LSTM:引入记忆单元和三个门(输入门、遗忘门、输出门),选择性地记忆和遗忘
- GRU:简化版 LSTM,仅两个门(更新门、重置门),效率更高
- 双向 RNN:同时从前向和后向处理序列,捕获完整上下文
理解与洞察
- 梯度消失问题是理解 LSTM/GRU 发明动机的关键:在标准 RNN 中,梯度在每个时间步被反复乘以权重矩阵。如果权重 < 1,梯度指数衰减(消失);如果权重 > 1,梯度指数增长(爆炸)。消失的梯度意味着网络无法学到长距离依赖——比如一句话开头的主语对结尾动词时态的影响
- LSTM 的门控机制是一种"选择性记忆":遗忘门决定丢弃什么旧信息,输入门决定写入什么新信息,输出门决定暴露什么给下一步。记忆单元中的信息可以沿着"高速公路"不受阻碍地传递,从而解决梯度消失
- 然而 RNN/LSTM 的顺序处理特性(必须一步一步来)限制了并行化能力,这为 Transformer(第 22 节)的出现埋下了伏笔
- 双向 RNN 的直觉:理解一个词的含义往往需要同时看前文和后文。"我在银行______"——看到"存钱"或"钓鱼"后才能确定"银行"的含义
实践收获
- 理解了序列建模中"记忆"的技术实现,以及为什么朴素 RNN 无法处理长序列
- 建立了 RNN → LSTM/GRU → Transformer 的技术演进脉络:每一步都是为了解决前一步的瓶颈
21. Introduction to Generative AI
知识要点
- 生成式 AI 专注于创造新内容(文本、图像、音乐、代码),而非仅分析或分类
- 主要模型类型:
- GAN:生成器与判别器对抗训练
- VAE:学习数据的压缩表示进行生成
- 自回归模型:逐元素顺序生成
- 扩散模型:从噪声逐步去噪生成
- 关键概念:潜在空间、采样、模式坍缩、过拟合
- 评估指标:IS(图像质量与多样性)、FID(生成与真实分布距离)、BLEU(文本相似度)
理解与洞察
- 生成式 AI 与判别式 AI 的本质区别:判别式模型学习 P(y|x)(给定输入预测类别),生成式模型学习 P(x)(学习数据本身的分布,从而能生成新样本)。后者的难度远高于前者
- GAN 的对抗训练思想极为优雅:生成器和判别器互为对手——生成器试图造假到以假乱真,判别器试图识破。两者在博弈中共同进步。但这也导致训练不稳定(模式坍缩等问题)
- 潜在空间是理解所有生成模型的核心概念:它是一个压缩的、连续的表示空间,在这个空间中相似的数据点距离较近。生成过程就是在潜在空间中采样然后"解码"
- 评估生成模型比评估分类模型困难得多——生成内容的"好坏"没有唯一标准,IS/FID/BLEU 都只是代理指标
实践收获
- 建立了生成式 AI 的四大模型类型的概览,理解了它们各自的生成范式
- 认识到生成式 AI 在安全领域的双刃剑效应:可用于生成对抗样本攻击,也可用于数据增强和合成训练数据
22. Large Language Models
知识要点
- 基于 Transformer 架构 的大规模文本生成模型,参数量可达数十亿甚至数万亿
- 三大特性:大规模参数、少样本学习、上下文理解
- 核心技术栈:
- Tokenization:将文本切分为 token(词/子词/字符)
- Embeddings:将 token 映射为捕获语义的高维向量
- Encoder / Decoder:编码器理解输入,解码器生成输出
- Self-Attention:计算词与词之间的注意力分数,捕获长距离依赖
- 训练方式:基于海量文本数据的无监督学习,使用梯度下降优化参数
理解与洞察
- 自注意力机制(Self-Attention)是 Transformer 击败 RNN 的关键突破:RNN 必须顺序处理序列(第 1 个词 → 第 2 个 → ... → 第 n 个),而自注意力让每个词可以直接与序列中任意其他词交互,不受距离限制。这不仅捕获了长距离依赖,还允许大规模并行计算
- 自注意力的直觉:处理"The cat sat on the mat because it was tired"时,"it"需要关注"cat"(而非"mat")来确定指代关系。注意力分数正是衡量词与词之间相关性的权重
- **规模效应(Scaling Laws)**是 LLM 的另一个深刻发现:模型能力随参数量、数据量和计算量的增加而可预测地提升。这解释了为什么"越大越好"成为 LLM 发展的主旋律
- 少样本学习(few-shot learning)意味着 LLM 通过预训练已经"见过"海量模式,推理时只需几个示例即可适应新任务——这是传统 ML 做不到的
实践收获
- 理解了 Transformer 架构取代 RNN 的技术原因:并行化 + 长距离依赖建模的双重优势
- 掌握了 LLM 的技术栈全貌:Tokenization → Embedding → Self-Attention → Encoder/Decoder,为理解和使用 LLM 工具打下基础
23. Diffusion Models
知识要点
- 通过"加噪→去噪"过程学习数据分布,生成高质量图像
- 正向过程:逐步向数据添加噪声直到变成纯噪声
- 反向过程:训练去噪网络预测并移除噪声,从纯噪声逐步恢复数据
- 文本引导生成:使用 Transformer / CLIP 将文本编码为潜在表示,条件化去噪过程
- 关键组件:噪声调度(控制每步加噪量)、去噪网络(CNN 或 Transformer)
- 假设:马尔可夫性质、静态数据分布、数据分布的平滑性
理解与洞察
- 扩散模型的直觉非常优美:破坏容易,修复难——正向加噪是简单的(每步加一点高斯噪声),但学会反向去噪需要网络真正理解数据的结构。这与物理学中的热力学第二定律(熵增容易、熵减困难)有异曲同工之妙
- 相比 GAN,扩散模型的训练更加稳定(不存在对抗训练的不稳定性),生成质量更高,但代价是推理速度慢——需要多步迭代去噪
- 文本引导生成连接了视觉和语言两个模态:CLIP 模型建立了文本与图像的共享语义空间,使得"用文字描述想要的图像"成为可能
- 扩散模型是当前图像生成的主流方法(Stable Diffusion、DALL-E、Midjourney 的基础),取代了之前 GAN 的主导地位
实践收获
- 理解了扩散模型"加噪-去噪"的核心思想,掌握了当前图像生成技术的基本原理
- 认识到多模态 AI(文本+图像)的技术基础:通过共享潜在空间连接不同类型的数据
24. Skills Assessment
练习题解
Q1: Which probabilistic algorithm, based on Bayes' theorem, is commonly used for classification tasks such as spam filtering and sentiment analysis, and is known for its simplicity, efficiency, and good performance in real-world scenarios?
解题思路:
题目描述了一个基于贝叶斯定理的概率分类算法,以简洁高效著称,广泛用于垃圾邮件过滤和情感分析。这正是第 7 节介绍的 Naive Bayes。
答案: Naive Bayes
Q2: What dimensionality reduction technique transforms high-dimensional data into a lower-dimensional representation while preserving as much original information as possible, and is widely used for feature extraction, data visualization, and noise reduction?
解题思路:
题目描述的是一种将高维数据变换到低维表示的降维技术,广泛用于特征提取和数据可视化。这正是第 11 节介绍的 PCA。
答案: Principal Component Analysis
Q3: What model-free reinforcement learning algorithm learns an optimal policy by estimating the Q-value, which represents the expected cumulative reward an agent can obtain by taking a specific action in a given state and following the optimal policy afterward? This algorithm learns directly through trial and error, interacting with the environment and observing the outcomes.
解题思路:
题目的关键词是"model-free"、"Q-value"、"expected cumulative reward"。这正是第 14 节介绍的 Q-Learning,通过 Q 表估计每个状态-动作对的期望累积奖励来学习最优策略。
答案: Q-Learning
Q4: What is the fundamental computational unit in neural networks that receives inputs, processes them using weights and a bias, and applies an activation function to produce an output? Unlike the perceptron, which uses a step function for binary classification, this unit can use various activation functions such as the sigmoid, ReLU, and tanh.
解题思路:
题目问的是神经网络中的基本计算单元,接收输入、使用权重和偏置处理、应用激活函数产生输出。并且与感知机不同,它可以使用多种激活函数(Sigmoid、ReLU、Tanh)。这就是第 18 节中定义的 Neuron(神经元)。
答案: Neuron
Q5: What deep learning architecture, known for its ability to process sequential data like text by capturing long-range dependencies between words through self-attention, forms the basis of large language models (LLMs) that can perform tasks such as translation, summarization, question answering, and creative writing?
解题思路:
题目描述了一种通过自注意力机制捕获长距离依赖、处理序列数据的深度学习架构,是 LLM 的基础。这正是第 22 节介绍的 Transformer 架构。
答案: Transformer
答案速查
| 章节 | 题号 | 答案 |
|---|---|---|
| 24 - Skills Assessment | Q1 | Naive Bayes |
| 24 - Skills Assessment | Q2 | Principal Component Analysis |
| 24 - Skills Assessment | Q3 | Q-Learning |
| 24 - Skills Assessment | Q4 | Neuron |
| 24 - Skills Assessment | Q5 | Transformer |