cs_notes

UC Berkeley CS 188 Introduction to Artificial Intelligence, Fall 2018

https://www.youtube.com/playlist?list=PLsOUugYMBBJENfZ3XAToMsg44W7LeUVhF

1. COMPSCI 188 - 2018-08-23 - 人工智能介绍

1.1 课程简介

1.2 官网与交流平台

1.3 作业与考核

1.4 讨论小组

1.5 参考书籍

2. COMPSCI 188 - 2018-08-28 - 无信息搜索

反应型agent与计划型agent

反应型agent根据当前环境情况直接作出反应,而没有考虑行动的后果。例如我们面对飞在眼前的飞虫时会直接眨眼,没有考虑开眼闭眼的影响。

反应型agent并不一定不理性。如果紧急情况下的即时反应能带来良好结果,也可以视为理性行为。例如将手从火源处快速缩回。

搜索问题形式化

将真实问题抽象成一个搜索问题。搜索问题包括:

通过这个形式化,我们可以设计搜索算法找出从初始状态到目标状态的最优路径。

Pacman示例

通过一个Pacman游戏示例展示反应型agent和计划型agent的区别:

算法评估标准

评估搜索算法的标准包含:

不同算法在这些标准上的表现会有差异。

各种搜索算法

主要的搜索算法包括:

这些算法在后续教程中将进一步说明它们之间的区别和应用场景。

3. COMPSCI 188 - 2018-08-30 - A* Search and Heuristics

搜索问题定义

搜索问题由以下组成定义:

搜索算法

搜索算法以循环方式解决搜索问题:

  1. 初始化:将初始状态加入待扩展列表。
  2. 判断是否存在待扩展节点:如果有,继续执行;否则搜索结束。
  3. 选择待扩展节点:根据策略选择一个节点。
  4. 节点扩展:获取该节点下所有后继节点,加入待扩展列表。
  5. 判断目标状态:如果发现目标状态,搜索成功结束;否则回到第二步。

笃定 vs 非笃定搜索

笃定搜索可以找到目标(如果有),但效率低下。非笃定搜索效率高,但可能无法找到目标。

优先搜索策略

启发函数

启发函数评估节点优先级,指导搜索的正确方向。好的启发函数可以提高搜索效率。

常见启发函数包括:

4. COMPSCI 188 - 2018-09-04 - Constraint Satisfaction Problems (CSPs) Part 1/2

CSP问题定义

约束满足问题(CSP)是一类存在着约束关系的变量赋值问题。

CSP中包含:

CSP与标准搜索问题的区别

与标准搜索问题不同,CSP问题中:

CSP示例 - 地图着色问题

将澳大利亚的州 coloring 着色为例:

地图着色问题可以用隐式约束或显式约束表示。

解为每个变量赋予某个颜色,满足所有约束关系。

CSP算法

CSP问题可以用定制化算法比如回溯工归查找解,算法利用问题结构寻求更高效率。

接下来将详细介绍CSP算法。

5. COMPSCI 188 - 2018-09-06 - Constraint Satisfaction Problems (CSPs) Part 2/2

约束满足问题(CSP)简介

CSP的主要组成部分包括:

CSP的目标是找到一个赋值,使所有变量的值都满足所有约束。

回溯搜索法

回溯搜索法将CSP视为搜索问题来解决,状态为变量的部分赋值。

算法步骤:

  1. 如果赋值完整,返回结果;
  2. 选择下一个要赋值的变量;
  3. 试探性赋每个值;
  4. 如果赋值不违反约束,则递归地继续下一个变量的赋值;
  5. 如果赋值违反约束,回溯撤销该赋值,尝试下一个值。

提高效率的方法

filtering

在做赋值后,进行look ahead过滤,检测赋值是否会导致失败,以避免“注定”失败的走过弯路。

变量和值的顺序

利用问题结构

根据CSP的图结构,运用专用算法或改进图结构,加快求解速度。

以上方法都属通用方法,对一些CSP实例效果很好,但CSP仍然是一个NP困难问题。

6. COMPSCI 188 - 2018-09-11 - 搜索与其他代理:极小极大值

游戏可以分类为以下几类:

  1. 确定性游戏与随机性游戏。确定性游戏如国际象棋、围棋等,每一步的结果都是确定的。随机性游戏如牌类游戏,结果会受随机因素如骰子掷出的点数影响。

  2. 单人游戏、双人游戏、多人游戏。如书法是单人游戏,国际象棋、围棋是双人游戏,扑克是多人游戏。

  3. 0和苗游戏与非0和游戏。0和游戏里每个玩家的利益完全对立,如国际象棋,直接通过使对手输来获胜。非0和游戏中玩家之间不完全对立,如协作游戏。

  4. 完全信息游戏与不完全信息游戏。完全信息游戏每个玩家都了解局面的完整信息,如国际象棋。不完全信息游戏如牌类游戏,玩家不能看到其他玩家手上的牌。

要为游戏找到最优策略,需要考虑当前和可能的未来局面,以确定当前应采取什么行动。

游戏可以用以下几个要素建模:

之后讲解了国际象棋、围棋等游戏的发展历程。国际象棋在1997年被电脑首次击败世界冠军。围棋在2016年被Deepmind公司开发的AlphaGo首次战胜职业高手。

介绍了极小极大算法用来求解对抗性游戏。该算法假设每个玩家都在寻求对手采取最差策略时自己取得的最好结果,从而得出一个稳定的均衡策略。

最后讲解了学习改进评价函数后如何进一步提升围棋人机对弈水平,以及如何应用这些方法解决吃豆人游戏。

7. COMPSCI 188 - 2018-09-13 - Search with Other Agents: Expectimax, Utilities

公告事项

本次作业三已发布,下周一截止。每个作业包括电子作业、作文作业和前一次作业自我评估三部分。

小型竞赛将于本周日结束,下次会公布最后排名。

Expectimax搜索

如果结果有不确定性,例如其他玩家行动不可预测或存在随机事件,应用Expectimax搜索。

Expectimax搜索计算在最佳策略下的平均得分,而不是极差值。

实际应用

例如Pac-Man例子:

评价函数

我们一直在极大化/极小化某个值,这个值代表游戏状态的价值,称为评价函数。

下一周会介绍马尔可夫决策过程,另一种形式化描述Expectimax问题的方法。

8. COMPSCI 188 - 2018-09-18 - Markov Decision Processes (MDPs) Part 1/2

MDP概述

马尔科夫决策过程(Markov Decision Process, MDP)是一类非确定性搜索问题。它与确定性搜索问题相比,在采取行动时不知道最后的结果,而是有几种可能的结果和相应的概率。

MDP包含状态集合、行动集合以及转移函数。转移函数描述了从一个状态采取一个行动后,可能转移到其他状态的概率分布。

与搜索问题相比,MDP还包含奖励函数。奖励函数描述了在状态转移过程中可以获得的奖励。奖励可以是正数、负数或0。

MDP的目标是最大化总奖励。采取行动时需要考虑可能产生的不同结果和对应的奖励,找到最优策略。

示例:网格世界

网格世界是解释MDP概念的一个运行示例。

它包含一个有墙壁的网格地图、Robot移动四个方向(北、南、东、西)。行动可能成功移动,也可能由于随机噪声失败导致移动到其他方向。

成功率为80%,失败率为20%。失败时可能右转或左转一个方向。

地图中有宝石格(奖励+1)和火坑(奖励-1)。到达这两个格子 Robot 会停止移动,获得对应的奖励。此外每次移动也会获得或损失一点小奖励。

网格世界能清楚展示MDP的状态、行动、转移概率及奖励规则。

MDP解决算法

MDP与确定性搜索问题不同,需要新的算法来解决。其中一种基本算法就是期望最大算法(Expectimax Search)。

在网格世界例子中,期望最大算法可以考虑各种可能的结果和对应的奖励,找到一个最优策略来帮助Robot安全获得宝石。

9. COMPSCI 188 - 2018-09-20 - Markov Decision Processes (MDPs) Part 2/2

MDP概述

MDP代表马可夫决策过程,是一种描述非确定性搜索过程的模型。

MDP包括:

MDP的目标是最大化奖励的期望值。

MDP重要概念

策略

策略π是从状态到动作的映射,即给定状态时采取的动作。

价值函数

价值函数V(s)表示采取最优策略时从状态s开始的奖励期望值。

Q值函数

Q值函数Q(s,a)表示执行动作a后的下一个决定节点(状态-动作对)的奖励期望值。

网格世界示例

使用网格世界作为运行示例:

近优算法

讨论一些近似解MDP的算法,包括:

算法通过计算和优化策略、价值函数、Q值函数来逼近MDP的最优解。

10. COMPSCI 188 - 2018-09-25 - 强化学习第1/2部分

日志事项

强化学习概述

强化学习研究探索如何通过学习从环境获得的奖励 signal 来学习和优化行为。它不仅在人工智能中应用,也在心理学、认知科学等领域研究。

一个例子是训练宠物服从主人指令。主人有时喂奖励有时斥责打惩罚,希望随时间犬只能认准哪些行为会获得奖励。

形式上,强化学习中的智能体会选择动作,环境响应会产生新状态和奖励。不同于强化学习,马尔可夫决策过程假设环境和奖励模型事先已知,而强化学习只通过试错学习模式。

强化学习实际应用

项目要求

本学期项目三将使用强化学习训练同类型两轮小机器人学习如何行走。为了方便调试,采用这个相对简单的机器人设计。

11. COMPSCI 188 - 2018-09-27 - 强化学习第2/2部分

反馈更新方程

如果使用更新方程对Q值进行足够多次更新,Q值最终将收敛到最优Q值。这是很不寻常的,因为通常计算当前策略值时,计算值仅代表当前策略。但max操作使得样本参考最优策略,即使采样数据使用非最优策略收集也是如此。

收敛需要 satisfied几个条件:

  1. 每个状态-动作对足够经常被访问
  2. alpha携带式下降,不能下降得太快

演示

演示使用Q学习代理在网格世界中运行。世界包含许多终止状态和最右侧的终止状态。底行实际上奖励为负100,是不好的。运行的策略不optimal,常常跳下悬崖。我们关注Q值是否收敛到大约10,表明学习成功。

TD学习

TD学习是直接估计价值函数,而不是直接评估每个状态的未来回报之和。每次从一个状态跳到另一个状态,都会以 sampled方式更新第一个状态的价值函数的估计。

TD误差γQ(s’,a’)-Q(s,a)表示目标Q值与当前Q值之间的差异。目标Q值基于下一状态的Q值估计。通过不断减小这个误差,Q值估计将逼近 Bellman 情形等式。

考虑一个简单的格子世界。随着时间的推移,Q值估计将越来越准确,代表最优策略。通过学习,代理不断优化其行为。

ε-贪心策略

与直接使用学习到的Q值最大化不同,ε-贪心策略会随机选择非最优动作,以增加探索。ε表示随机选择概率。随着时间的推移,ε逐步下降,学习以来的知识将更多地驱动决策。

这种简单的技巧可以促进广泛的状态-动作对的探索,而不必设计专门的探索策略。它为Q学习提供了平衡探索与利用知识的方法。

12. COMPSCI 188 - 2018-10-02 - 概率

1. 范例-捉鬼游戏

捉鬼游戏中,游戏板上有一个隐藏的鬼,玩家需要通过感知探测获得颜色读数来推断鬼的位置。

探测会返回红、橙、黄、绿四种颜色,依次代表鬼的距离近远。但存在噪声,真实距离与返回颜色存在概率关系。

玩家可以多次探测积累信息,也可以直接“砰”试探鬼的位置。正确猜中获得分数,错误扣分。

该游戏模拟如何在不确定条件下,通过感知获得证据,利用概率推理得到查询变量(鬼位置)的后验概率分布。

2. 概率模型组成

概率模型包含三个部分:

  1. 随机变量:变量可能取多个值但真实值不确定,如鬼位置。部分变量值已知(观测变量,如探测返回),部分值未知(隐变量)。

  2. 模型:描述各随机变量之间的概率关系。初期为联合分布表,后续使用更先进的图模型。

  3. 概率推理:将已知观测变量与模型相结合,通过计算得到所查询隐变量的后验概率分布。

3. 概念概览

13. COMPSCI 188 - 2018-10-04 - Bayes’ Nets: Representation

Bayes网络,又称图形模型,是一种建立大量随机变量间概率模型的有效方法。它以图的形式表示随机变量之间的条件独立性关系。

随机变量的独立性

若两个随机变量X和Y在联合概率分布P(X,Y)中,它们的联合概率等于各自边缘概率的乘积,即:

P(X,Y)=P(X)P(Y)

则称X和Y独立。

有条件独立性

若给定某个随机变量Z,X和Y在P(X,Y Z)中的条件概率分布中独立,即:
P(X Y,Z)=P(X Z)

则称X和Y在给定Z的条件下独立。

Bayes网络

Bayes网络使用有向无环图(DAG)表示变量之间的关系。节点代表随机变量,有向边表示条件依赖关系。若没有从X到Y的边,则X和Y在给定其父结点的条件下独立。

Bayes网络可以在考虑变量间复杂关系的同时,通过条件独立性大大减少参数数量,实现模型的简化。它允许从观察结果推断未知变量,实现诊断推理和预测推理。

14. COMPSCI 188 - 2018-10-11 - 贝叶斯网络:独立性(D-分离)

条件概率

独立性

条件独立性

贝叶斯网络

贝叶斯网络的好处

15. COMPSCI 188 - 2018-10-16 - Bayes’ Nets: Inference (Variable Elimination)

贝叶斯网络

贝叶斯网络是概率图模型,用于表示联合概率分布。网络中的节点表示随机变量,有向边表示变量之间的直接影响关系。

每个节点下面都有一个条件概率表,描述该节点给定各个父节点状态下的条件概率分布。贝叶斯网络通过每一个节点的本地条件概率分布,转化成整个网络的联合概率分布。

概率推理

概率推理是从给定的联合概率分布或贝叶斯网络中,计算某些量的过程。常见的推理任务包括:

推理算法

枚举推理

直接计算联合概率表中每一项的概率,然后求和得出结果。但随着节点增加,联合表项数量指数级增长,计算难度巨大。

变量消去法

通过重复地将变量消去,将复杂的联合概率分解成只包含观测变量的易计算形式。它比枚举更高效,但在计算量上仍然是NP难问题。

贝叶斯网络推理难点

贝叶斯网络推理的复杂性来源于:

  1. 需要对隐藏变量求和,导致计算量巨大

  2. 网络结构复杂度高,变量之间复杂的条件依赖关系难以精准描述

  3. 需要处理大规模的联合分布,但每个条件分布参数量小。

人为设计的贝叶斯网络不一定能完全反映问题实际依赖关系,也增加了推理难度。

16. COMPSCI 188 - 2018-10-18 - Bayes’ Nets: Sampling

目录

  1. 贝叶斯网
  2. 查询问题
  3. 变量消除算法
  4. 采样方法总览
  5. 从单一分布采样
  6. 采样后推断
  7. 贝叶斯网采样

1. 贝叶斯网

贝叶斯网是一个概率模型,通过有向无环图表示一个领域内的随机变量。每个节点代表一个随机变量,节点内包含这个变量给定父节点取值的条件概率表。贝叶斯网通过下式隐式表示整体联合概率分布:

P(x1,x2,…,xn) = ∏ P(Xi parents(Xi))

2. 查询问题

使用贝叶斯网的目的是解决查询问题,比如给定一些据,查询某个变量的概率。但直接构建整体联合分布对大型贝叶斯网并不实际。

3. 变量消除算法

变量消除算法通过交替“膨胀”和“消去”变量,在保持中间表达尺寸较小的前提下,逐步求解查询问题。但对于某些网络结构,它可能仍十分低效。

4. 采样方法总览

采样方法的基本思路是:定义一个采样分布,重复抽取大量样本;在样本上计算近似后验概率解决查询问题。

与学习不同,这里采样用于推断,即已知概率分布,为了更快速求解。随着样本量的增加,采样结果将收敛到真实概率值。

5. 从单一分布采样

如何从一个多项分布中采样一个样本:

  1. 从均匀分布中采样一个0-1之间的随机数
  2. 根据各概率区间,将随机数划分到对应的事件空间中,即采样结果

6. 采样后推断

进行多次采样,在样本集上计算近似后验概率解决查询问题。与直接计算相比,它的时间复杂度仅与样本量相关。

7. 贝叶斯网采样

将单变量采样扩展到整个贝叶斯网络。按变量顺序在网络上遍历,根据节点本身和父节点的取值采样下一个节点状态,得到一个完整样本。

17. COMPSCI 188 - 2018-10-23 - 决策网和完美信息的价值(VPI)

决策网

决策网是一种将贝叶斯网与行动和效用节点相连接的方式来将问题建模。

贝叶斯网中的节点代表随机变量,有圆形表示。新增加的节点类型有:

  1. 方形节点代表行动,例如“带伞”或“不带伞”。行动节点不是随机变量,由决策者控制。

  2. 菱形节点代表效用,依赖于行动节点和其他随机变量节点。效用节点指定每个组合下的效用值,而不是概率分布。

决策网络推理

在决策网络中,主要目标是选择最优行动:

  1. 实例化观测到的证据节点,例如“天气预报预测下雨”。

  2. 为每个行动节点分别设置可能的值,如“带伞”和“不带伞”。

  3. 计算所有与效用节点相关的节点的后验分布。

  4. 根据后验分布选择使效用最大化的行动作为最优决策。

例子:带伞决策

例子中机器人需要决定是否带伞出门。模型包含:

通过实例化证据,计算不同行动下的效用期望最大值,选择最优行动。

完美信息的价值

获取更多信息可能改变行动选择。信息本身也具有效用,这就是完美信息的价值。

以后我们还将学习如何利用决策网络来评估获取额外信息的效用,以更好地做出决策。

18. COMPSCI 188 - 2018-10-25 - 隐马尔可夫模型

隐马尔可夫模型(HMM)是贝叶斯网络中最常用的模型之一。它用于处理一系列观测序列,可以应用于语音识别、机器人定位、医疗监测等领域。

HMM由以下部分构成:

  1. 状态空间:状态变量代表系统在每一个时间点的状态。例如天气状态可以是晴天或雨天。

  2. 初始状态分布:表示时间点1的初始状态分布概率。

  3. 状态转移概率:表示状态在连续两个时间点之间转移的概率,如晴天下一天还晴天的概率。这些概率形成一个条件概率表。

  4. 观测符号集合:表示可以观测到的符号,如语音信号值。

  5. 观测概率:表示给定状态,观测到各个符号的概率。

HMM假设马尔可夫性质:当前状态只与前一状态有关,与更早状态无关。因此只需要记录前一状态就可以推导当前和后续状态。

HMM的Inference算法包括前向后向算法和维特比算法。前向后向算法计算某个观测序列的概率,维特比算法用于状态序列估计。

应用HMM的典型例子是天气预测模型。其状态空间为{晴天,雨天},初始状态分布认为第一天是晴天。状态转移概率表明晴天翌日还晴的概率为90%,雨天翌日还雨的概率为70%。利用这些参数和观测序列,可以进行状态推断。

HMM由于其简单结构但强大推断能力,广泛应用于Sequncelearning和时序数据分析领域。

19. COMPSCI 188 - 2018-10-30 - 粒子滤波

隐马尔可夫模型简介

隐马尔可夫模型中包含两个随机变量:

隐马尔可夫模型包括:

  1. 初始分布:X在t=0时的概率分布。
  2. 转移概率:X在t时刻给定t-1时刻状态的条件概率分布。
  3. 观测模型:根据X状态产生Evidence的条件概率分布。

通过Evidence和转移概率,可以推断出X在不同时刻的posterior概率分布,即信念分布(belief distribution)。

粒子滤波

粒子滤波是求解隐马尔可夫模型的一种近似方法。它通过采样来估计信念分布:

  1. 在t=0时使用初值分布随机采样N个粒子,每个粒子代表一个可能的X状态。

  2. 当得到新Evidence时,根据观测模型将每个粒子的权重更新为该Evidence出现的概率。

  3. 根据每个粒子的权重,通过重采样将粒子分布近似更新为下一个时序的后验分布。

  4. 重复步骤2-3,随着时间的推移,粒子的分布将越来越准确地表示X在各个时刻的posterior分布。

粒子滤波同时考虑了转移概率和观测,将信念分布表示为一组加权样本,可以处理非线性和非高斯问题。它构成了隐马尔可夫模型推断的一种有效方法。

20. COMPSCI 188 - 2018-11-01 - 机器学习:朴素贝叶斯

一、分类问题简介

分类就是将输入映射到输出类别的机器学习任务。分类学习的典型应用包括垃圾邮件过滤、数字识别等。

分类学习的基本流程是:

  1. 收集带有类别标签的训练样本,比如带spam与ham标签的邮件样本。

  2. 从训练样本中提取特征,比如邮件内容中的单词。

  3. 通过学习算法从特征中学习分类模型。

  4. 使用模型进行新样本的预测,将其分类到某个类别。

二、垃圾邮件过滤问题

垃圾邮件过滤是个典型的分类问题。其中:

三、数字识别问题

数字识别也是一个分类问题。其中:

四、朴素贝叶斯分类器

下一步将介绍朴素贝叶斯分类器,它是一种非常简单但广泛应用的监督学习算法,能够解决上述两类问题。

21. COMPSCI 188 - 2018-11-06 - 机器学习:感知机与逻辑回归

课程公告

感知机原理

感知机是机器学习中的一种线性分类算法,它采用权值向量和阈值来实现分类。

感知机的工作原理类似神经元。一个感知机包含以下元素:

所以,感知机的分类公式为:

f(x) = sign(w·x - θ)

其中:

logistic回归原理

logistic回归也是一种线性分类模型。它将激活函数从sign改为 sigmoid函数,使得输出是一个0到1之间的概率值,更符合真实问题。

logistic回归的分类公式为:

P(y=1 x) = σ(w·x + b)

σ(z) = 1/(1+e^-z) 是sigmoid函数,它的输出范围在0到1之间。通过改变w和b来拟合这个函数,从而实现分类。

疑问解答

22. COMPSCI 188 - 2018-11-08 - 机器学习:优化和神经网络

一、线性分类器

线性分类器有多个输入特征,每个特征对应一个权重,用来表示对该特征的重要程度。特征值与对应的权重求内积,就是该分类单元的激活值。如果激活值大于0,则预测为正类;如果小于0,则预测为负类。

二、概率决策

为了规避线性分类器无法处理非线性数据的问题,我们采用概率决策。将线性分类器的激活值通过sigmoid函数转换为0-1范围内的概率值。sigmoid函数满足:激活值很大时,对应类的概率近1;激活值很小时,对应类的概率近0。通过此方式,我们将线性分类问题转化为概率模型,找到概率模型的参数W来最大限度描述数据,这就是极大似然估计。

三、多类别分类

多类别分类将每个类对应的激活值通过softmax函数转换为0-1范围内的概率分布。softmax函数保证各类别概率总和为1。我们假设每个类别对应的激活值代表该类的可能性,softmax函数通过指数化实现“比例效应”,使得激活值较高的类对应的概率最大。参数W选择可以最大化训练数据Labels given Inputs的概率似然函数。

四、参数优化

无约束下,我们可以暴力搜索所有可能的W参数,选择使数据集Labels given Inputs概率最大的那个。但这需要无限计算资源。实际上,我们可以用梯度下降法迭代优化参数W,每次微调W来提高数据似然函数值,逐步找到全局最优解。将这视为一个连续变量优化问题,每个W微调的搜索方向可以根据当前梯度的方向进行。

23. COMPSCI 188 - 2018-11-13 - 机器学习:神经网络与决策树

神经网络简介

神经网络是一个非线性模型,包含输入层、隐藏层和输出层。输入层收集特征信息,隐藏层计算输入的权重和输入,并应用非线性激活函数,将信息传递到输出层。通过调整所有的权重,神经网络可以近似任意连续函数,从而完成分类任务。

训练神经网络需要优化目标函数,也就是最大化输出标记的概率对数。通过使用梯度下降算法,每次计算梯度后调整一小步权重,逐步提高目标函数值,找到一个较好的本地极大值。在训练过程中需要监控验证集的表现,以防止过拟合。训练完成后,神经网络即为分类模型。

计算机视觉中的应用

计算机视觉任务中,常见问题是从图像中检测物体。早期通过手工设计特征来实现,如将图片转为边缘图,再计算每个区域梯度方向的直方图(HOG特征)。HOG特征较为鲁棒,不易受光照和角度变化影响。但这种方法难以大幅提升检测准确率。

2012年,Jeff Hinton的实验室采用AlexNet神经网络,参加ImageNet大型视觉识别竞赛,将错误率从30%下降到15%,突破了传统方法的瓶颈。这得益于大量数据集和GPU并行训练所提供的计算能力。此后深度学习在计算机视觉中迅速发展。

决策树与学习理论简介

本课还简要介绍了决策树模型。决策树通过问答决策来判断样本分类。学习理论研究模型泛化能力,旨在避免过拟合。课后还有平时作业和第二次平时考核。这节课主要阐述了神经网络和决策树在机器学习中的应用,以及深度学习突破传统方法的背景。

24. 计算机科学188 - 2018年11月27日 - 机器人、语言与视觉

业余篮球竞赛

最后一个业余篮球竞赛将于今晚截止,在这个竞赛中,你需要设计一个智能代理来与另一个代理协同收集食物块,同时躲避幽灵不被吃掉。还有一些工作人员代理参与竞赛,将与其他学生进行排名竞赛。

余下任务安排

明天的课上将讨论竞赛结果。下周有一个项目deadline。本周还有一节课。家庭作业已经全部完成,但下周需要自我评估最后一项家庭作业。然后是最后一门考试,安排在后两周。

AlphaGo

2016年3月,Google的AlphaGo连胜李世石,达到超越世界一流职业围棋高手的水平。随后,DeepMind研发出专门用于玩围棋或国际象棋的AlphaZero,不需要任何人类数据就能自行训练成为世界头号高手。

AlphaGo工作原理

AlphaGo使用了两个深度神经网络 - 一个价值网络预测局面胜负结果,一个政策网络预测下个棋点。它通过自我对弈获取大量数据训练这两个网络,然后使用学习到的网络在限定层数展开中极大提示下,来选择最优着法。

围棋特点

与国际象棋相比,围棋的分支因子远大于国际象棋。简单的枚举搜索法在围棋中难以实施。而机器学习网络可以很好地近似评估函数,帮助搜索在合理深度内获取正确决策。

AlphaZero

AlphaZero不需要任何人类数据,而是通过自我对弈从零开始学习,仅通过胜负结果来改进政策网络和价值网络。通过这种方式,它不断优化自己,超越了以往最强人机,甚至在其他棋类如国际象棋上也表现出色。

其他应用

语言处理中有大量搜索应用。 deepest古扎将围棋和国际象棋中的AlphaGo Zero概念推广到其他棋类如将棋。机器人行为学习如飞行和脚踝机器人。处理不确定性如自动驾驶汽车。

25. COMPSCI 188 - 2018-11-29 - Advanced Topics, Summary

自然语言处理

自然语言处理是人工智能的一个重要领域,它研究如何处理和理解人类语言。

目前常见的自然语言处理应用包括语音识别、机器翻译、对话系统等。这些技术都利用自然语言处理来实现与人类交互。

理想状态下,自然语言处理系统应该能够像人类一样,理解语言内容的细微含义和语境。但当前技术水平尚无法达到这个程度,往往只能基于单词和模式匹配来处理语言输入。

语言的深度理解需要考虑语法结构、语义和语用学等多个层面。自然语言处理的目标是推进模型能力,实现对话上下文和语言细微含义的深度理解。

大赛结果总结

此次188课程的最后一场大赛中,学生需要开发智能代理合作完成一个啃食食物块的任务。

大赛共有32支队伍参与,进行了数千场比赛。决赛结果如下:

冠军队伍采用了基于奖励密度地图的策略。该策略会计算食物块和ghost位置的分布,根据地图优先选择收集食物。

亚军队伍使用强化学习方法,学习合作策略以避开ghost。

季军队伍采用特征评估函数,根据食物块、队友和ghost的距离选择策略。

此外,还展示了前三名队伍的游戏视频,展示其合作策略。

比赛结果公布后,还颁发了纪念奖牌给前三名队伍,以示鼓励。