https://www.youtube.com/playlist?list=PLsOUugYMBBJENfZ3XAToMsg44W7LeUVhF
本课程为188人工智能,教学内容包括机器学习和自然语言处理等领域。
本课主讲老师有两位:彼得·毕尔教授和丹·克莱因教授。彼得教授主要从事机器学习和机器人研究,克莱因教授主要研究自然语言处理。
本课程小组成员有Aditya、Alex、Daniel、David、Ignasi、Jasmine、Jonathan、Katie、Laura、Mitchell、Nikki、Nikita、Noah、Yong、Xing和Ye,他们将负责辅导和答疑解惑。
主要交流平台为Piazza,如果有任何问题都可以在Piazza上发布,公开发布如果对其他同学也有帮助,私下讨论如果问题比较个人。
本课程包含5个Python编程项目作业,可以单独或成对完成,每次最多使用2天延期。
包含11个每周作业,电子部分在Gradescope平台完成,文书部分需要上传答案。
考核项目包含2次中期考与1次期末考,按照加重等第制度计分。
其他还有3次机器学习竞赛,不影响分数只用于竞技。
目前没有分配讨论小组,学生可以自由选择参加一个讨论小组。
之后将通过Piazza调查意见对小组进行平衡分配。讨论小组将于下周开始。
同时会提供网上讨论小组视频,让无法参加现场的同学也可以进行学习。
本课程没有必读书,但如果希望了解更深入可以参考 artificail intelligence: A modern approach 一书。
课堂中使用笔记本需要注意不要影响其他同学,最好坐在后排或两边。
反应型agent根据当前环境情况直接作出反应,而没有考虑行动的后果。例如我们面对飞在眼前的飞虫时会直接眨眼,没有考虑开眼闭眼的影响。
反应型agent并不一定不理性。如果紧急情况下的即时反应能带来良好结果,也可以视为理性行为。例如将手从火源处快速缩回。
将真实问题抽象成一个搜索问题。搜索问题包括:
通过这个形式化,我们可以设计搜索算法找出从初始状态到目标状态的最优路径。
通过一个Pacman游戏示例展示反应型agent和计划型agent的区别:
反应型agent直接面对最近的点移动,可能陷入循环无法进展;
计划型agent通过预计每一步可能的结果,找到最优策略完成游戏目标。
评估搜索算法的标准包含:
不同算法在这些标准上的表现会有差异。
主要的搜索算法包括:
这些算法在后续教程中将进一步说明它们之间的区别和应用场景。
搜索问题由以下组成定义:
搜索算法以循环方式解决搜索问题:
笃定搜索可以找到目标(如果有),但效率低下。非笃定搜索效率高,但可能无法找到目标。
启发函数评估节点优先级,指导搜索的正确方向。好的启发函数可以提高搜索效率。
常见启发函数包括:
约束满足问题(CSP)是一类存在着约束关系的变量赋值问题。
CSP中包含:
与标准搜索问题不同,CSP问题中:
将澳大利亚的州 coloring 着色为例:
地图着色问题可以用隐式约束或显式约束表示。
解为每个变量赋予某个颜色,满足所有约束关系。
CSP问题可以用定制化算法比如回溯工归查找解,算法利用问题结构寻求更高效率。
接下来将详细介绍CSP算法。
CSP的主要组成部分包括:
CSP的目标是找到一个赋值,使所有变量的值都满足所有约束。
回溯搜索法将CSP视为搜索问题来解决,状态为变量的部分赋值。
算法步骤:
在做赋值后,进行look ahead过滤,检测赋值是否会导致失败,以避免“注定”失败的走过弯路。
根据CSP的图结构,运用专用算法或改进图结构,加快求解速度。
以上方法都属通用方法,对一些CSP实例效果很好,但CSP仍然是一个NP困难问题。
游戏可以分类为以下几类:
确定性游戏与随机性游戏。确定性游戏如国际象棋、围棋等,每一步的结果都是确定的。随机性游戏如牌类游戏,结果会受随机因素如骰子掷出的点数影响。
单人游戏、双人游戏、多人游戏。如书法是单人游戏,国际象棋、围棋是双人游戏,扑克是多人游戏。
0和苗游戏与非0和游戏。0和游戏里每个玩家的利益完全对立,如国际象棋,直接通过使对手输来获胜。非0和游戏中玩家之间不完全对立,如协作游戏。
完全信息游戏与不完全信息游戏。完全信息游戏每个玩家都了解局面的完整信息,如国际象棋。不完全信息游戏如牌类游戏,玩家不能看到其他玩家手上的牌。
要为游戏找到最优策略,需要考虑当前和可能的未来局面,以确定当前应采取什么行动。
游戏可以用以下几个要素建模:
之后讲解了国际象棋、围棋等游戏的发展历程。国际象棋在1997年被电脑首次击败世界冠军。围棋在2016年被Deepmind公司开发的AlphaGo首次战胜职业高手。
介绍了极小极大算法用来求解对抗性游戏。该算法假设每个玩家都在寻求对手采取最差策略时自己取得的最好结果,从而得出一个稳定的均衡策略。
最后讲解了学习改进评价函数后如何进一步提升围棋人机对弈水平,以及如何应用这些方法解决吃豆人游戏。
本次作业三已发布,下周一截止。每个作业包括电子作业、作文作业和前一次作业自我评估三部分。
小型竞赛将于本周日结束,下次会公布最后排名。
如果结果有不确定性,例如其他玩家行动不可预测或存在随机事件,应用Expectimax搜索。
Expectimax搜索计算在最佳策略下的平均得分,而不是极差值。
例如Pac-Man例子:
我们一直在极大化/极小化某个值,这个值代表游戏状态的价值,称为评价函数。
下一周会介绍马尔可夫决策过程,另一种形式化描述Expectimax问题的方法。
马尔科夫决策过程(Markov Decision Process, MDP)是一类非确定性搜索问题。它与确定性搜索问题相比,在采取行动时不知道最后的结果,而是有几种可能的结果和相应的概率。
MDP包含状态集合、行动集合以及转移函数。转移函数描述了从一个状态采取一个行动后,可能转移到其他状态的概率分布。
与搜索问题相比,MDP还包含奖励函数。奖励函数描述了在状态转移过程中可以获得的奖励。奖励可以是正数、负数或0。
MDP的目标是最大化总奖励。采取行动时需要考虑可能产生的不同结果和对应的奖励,找到最优策略。
网格世界是解释MDP概念的一个运行示例。
它包含一个有墙壁的网格地图、Robot移动四个方向(北、南、东、西)。行动可能成功移动,也可能由于随机噪声失败导致移动到其他方向。
成功率为80%,失败率为20%。失败时可能右转或左转一个方向。
地图中有宝石格(奖励+1)和火坑(奖励-1)。到达这两个格子 Robot 会停止移动,获得对应的奖励。此外每次移动也会获得或损失一点小奖励。
网格世界能清楚展示MDP的状态、行动、转移概率及奖励规则。
MDP与确定性搜索问题不同,需要新的算法来解决。其中一种基本算法就是期望最大算法(Expectimax Search)。
在网格世界例子中,期望最大算法可以考虑各种可能的结果和对应的奖励,找到一个最优策略来帮助Robot安全获得宝石。
MDP代表马可夫决策过程,是一种描述非确定性搜索过程的模型。
MDP包括:
MDP的目标是最大化奖励的期望值。
策略π是从状态到动作的映射,即给定状态时采取的动作。
价值函数V(s)表示采取最优策略时从状态s开始的奖励期望值。
Q值函数Q(s,a)表示执行动作a后的下一个决定节点(状态-动作对)的奖励期望值。
使用网格世界作为运行示例:
讨论一些近似解MDP的算法,包括:
算法通过计算和优化策略、价值函数、Q值函数来逼近MDP的最优解。
强化学习研究探索如何通过学习从环境获得的奖励 signal 来学习和优化行为。它不仅在人工智能中应用,也在心理学、认知科学等领域研究。
一个例子是训练宠物服从主人指令。主人有时喂奖励有时斥责打惩罚,希望随时间犬只能认准哪些行为会获得奖励。
形式上,强化学习中的智能体会选择动作,环境响应会产生新状态和奖励。不同于强化学习,马尔可夫决策过程假设环境和奖励模型事先已知,而强化学习只通过试错学习模式。
将强化学习应用于索尼AIBO机器狗参加机器狗世界杯,通过学习提升奔跑速度,获得比赛优势。
将强化学习训练的蟒蛇机器人能爬上阶梯。由于蟒蛇模拟难度大,直接学习比规划效果好。
将强化学习训练两轮小柴可爱机器人走路。通过设计和学习 synergically 获得好的结果。
本学期项目三将使用强化学习训练同类型两轮小机器人学习如何行走。为了方便调试,采用这个相对简单的机器人设计。
如果使用更新方程对Q值进行足够多次更新,Q值最终将收敛到最优Q值。这是很不寻常的,因为通常计算当前策略值时,计算值仅代表当前策略。但max操作使得样本参考最优策略,即使采样数据使用非最优策略收集也是如此。
收敛需要 satisfied几个条件:
演示使用Q学习代理在网格世界中运行。世界包含许多终止状态和最右侧的终止状态。底行实际上奖励为负100,是不好的。运行的策略不optimal,常常跳下悬崖。我们关注Q值是否收敛到大约10,表明学习成功。
TD学习是直接估计价值函数,而不是直接评估每个状态的未来回报之和。每次从一个状态跳到另一个状态,都会以 sampled方式更新第一个状态的价值函数的估计。
TD误差γQ(s’,a’)-Q(s,a)表示目标Q值与当前Q值之间的差异。目标Q值基于下一状态的Q值估计。通过不断减小这个误差,Q值估计将逼近 Bellman 情形等式。
考虑一个简单的格子世界。随着时间的推移,Q值估计将越来越准确,代表最优策略。通过学习,代理不断优化其行为。
与直接使用学习到的Q值最大化不同,ε-贪心策略会随机选择非最优动作,以增加探索。ε表示随机选择概率。随着时间的推移,ε逐步下降,学习以来的知识将更多地驱动决策。
这种简单的技巧可以促进广泛的状态-动作对的探索,而不必设计专门的探索策略。它为Q学习提供了平衡探索与利用知识的方法。
捉鬼游戏中,游戏板上有一个隐藏的鬼,玩家需要通过感知探测获得颜色读数来推断鬼的位置。
探测会返回红、橙、黄、绿四种颜色,依次代表鬼的距离近远。但存在噪声,真实距离与返回颜色存在概率关系。
玩家可以多次探测积累信息,也可以直接“砰”试探鬼的位置。正确猜中获得分数,错误扣分。
该游戏模拟如何在不确定条件下,通过感知获得证据,利用概率推理得到查询变量(鬼位置)的后验概率分布。
概率模型包含三个部分:
随机变量:变量可能取多个值但真实值不确定,如鬼位置。部分变量值已知(观测变量,如探测返回),部分值未知(隐变量)。
模型:描述各随机变量之间的概率关系。初期为联合分布表,后续使用更先进的图模型。
概率推理:将已知观测变量与模型相结合,通过计算得到所查询隐变量的后验概率分布。
随机变量:用来建模不确定事件。
联合分布:概率模型最基础形式,记录所有随机变量组合及其概率。
边缘分布:某一随机变量单独的概率分布。
条件分布:观测到其中一变量的值后,另一变量的概率分布。
证据:观测到的随机变量值。
后验概率:证据与先验知识相结合产生的概率看法。
机器学习:学习概率模型参数的自动方法。
Bayes网络,又称图形模型,是一种建立大量随机变量间概率模型的有效方法。它以图的形式表示随机变量之间的条件独立性关系。
若两个随机变量X和Y在联合概率分布P(X,Y)中,它们的联合概率等于各自边缘概率的乘积,即:
P(X,Y)=P(X)P(Y)
则称X和Y独立。
若给定某个随机变量Z,X和Y在P(X,Y | Z)中的条件概率分布中独立,即: |
P(X | Y,Z)=P(X | Z) |
则称X和Y在给定Z的条件下独立。
Bayes网络使用有向无环图(DAG)表示变量之间的关系。节点代表随机变量,有向边表示条件依赖关系。若没有从X到Y的边,则X和Y在给定其父结点的条件下独立。
Bayes网络可以在考虑变量间复杂关系的同时,通过条件独立性大大减少参数数量,实现模型的简化。它允许从观察结果推断未知变量,实现诊断推理和预测推理。
P(X=x | Y=y)表示变量X的值等于x, given(给定)变量Y的值等于y的概率 |
P(X=x,Y=y)=P(Y=y)P(X=x | Y=y), 称为乘法规则 |
P(X=x,Y=y)=P(X=x)P(Y=y | X=x),可以互换变量顺序 |
连锁规则表示多个变量的联合概率分解式:P(X1,X2,…,Xn)=P(X1)P(X2 | X1)…P(Xn | X1,…,Xn-1) |
X和Y给定Z是条件独立的,当且仅当对所有的x,y,z值,P(X=x,Y=y | Z=z)=P(X=x | Z=z)P(Y=y | Z=z) |
记为X⊥Y | Z |
贝叶斯网络是概率图模型,用于表示联合概率分布。网络中的节点表示随机变量,有向边表示变量之间的直接影响关系。
每个节点下面都有一个条件概率表,描述该节点给定各个父节点状态下的条件概率分布。贝叶斯网络通过每一个节点的本地条件概率分布,转化成整个网络的联合概率分布。
概率推理是从给定的联合概率分布或贝叶斯网络中,计算某些量的过程。常见的推理任务包括:
后验概率:计算某个变量给定观测参量的条件概率分布
最可能解释:给定观测,求解变量集合中概率最大化的一个或多个值
直接计算联合概率表中每一项的概率,然后求和得出结果。但随着节点增加,联合表项数量指数级增长,计算难度巨大。
通过重复地将变量消去,将复杂的联合概率分解成只包含观测变量的易计算形式。它比枚举更高效,但在计算量上仍然是NP难问题。
贝叶斯网络推理的复杂性来源于:
需要对隐藏变量求和,导致计算量巨大
网络结构复杂度高,变量之间复杂的条件依赖关系难以精准描述
需要处理大规模的联合分布,但每个条件分布参数量小。
人为设计的贝叶斯网络不一定能完全反映问题实际依赖关系,也增加了推理难度。
贝叶斯网是一个概率模型,通过有向无环图表示一个领域内的随机变量。每个节点代表一个随机变量,节点内包含这个变量给定父节点取值的条件概率表。贝叶斯网通过下式隐式表示整体联合概率分布:
P(x1,x2,…,xn) = ∏ P(Xi | parents(Xi)) |
使用贝叶斯网的目的是解决查询问题,比如给定一些据,查询某个变量的概率。但直接构建整体联合分布对大型贝叶斯网并不实际。
变量消除算法通过交替“膨胀”和“消去”变量,在保持中间表达尺寸较小的前提下,逐步求解查询问题。但对于某些网络结构,它可能仍十分低效。
采样方法的基本思路是:定义一个采样分布,重复抽取大量样本;在样本上计算近似后验概率解决查询问题。
与学习不同,这里采样用于推断,即已知概率分布,为了更快速求解。随着样本量的增加,采样结果将收敛到真实概率值。
如何从一个多项分布中采样一个样本:
进行多次采样,在样本集上计算近似后验概率解决查询问题。与直接计算相比,它的时间复杂度仅与样本量相关。
将单变量采样扩展到整个贝叶斯网络。按变量顺序在网络上遍历,根据节点本身和父节点的取值采样下一个节点状态,得到一个完整样本。
决策网是一种将贝叶斯网与行动和效用节点相连接的方式来将问题建模。
贝叶斯网中的节点代表随机变量,有圆形表示。新增加的节点类型有:
方形节点代表行动,例如“带伞”或“不带伞”。行动节点不是随机变量,由决策者控制。
菱形节点代表效用,依赖于行动节点和其他随机变量节点。效用节点指定每个组合下的效用值,而不是概率分布。
在决策网络中,主要目标是选择最优行动:
实例化观测到的证据节点,例如“天气预报预测下雨”。
为每个行动节点分别设置可能的值,如“带伞”和“不带伞”。
计算所有与效用节点相关的节点的后验分布。
根据后验分布选择使效用最大化的行动作为最优决策。
例子中机器人需要决定是否带伞出门。模型包含:
随机变量节点:天气( sunny / rainy )
行动节点:带伞/不带伞
效用节点:根据天气和行动指定每个效用值
通过实例化证据,计算不同行动下的效用期望最大值,选择最优行动。
获取更多信息可能改变行动选择。信息本身也具有效用,这就是完美信息的价值。
以后我们还将学习如何利用决策网络来评估获取额外信息的效用,以更好地做出决策。
隐马尔可夫模型(HMM)是贝叶斯网络中最常用的模型之一。它用于处理一系列观测序列,可以应用于语音识别、机器人定位、医疗监测等领域。
HMM由以下部分构成:
状态空间:状态变量代表系统在每一个时间点的状态。例如天气状态可以是晴天或雨天。
初始状态分布:表示时间点1的初始状态分布概率。
状态转移概率:表示状态在连续两个时间点之间转移的概率,如晴天下一天还晴天的概率。这些概率形成一个条件概率表。
观测符号集合:表示可以观测到的符号,如语音信号值。
观测概率:表示给定状态,观测到各个符号的概率。
HMM假设马尔可夫性质:当前状态只与前一状态有关,与更早状态无关。因此只需要记录前一状态就可以推导当前和后续状态。
HMM的Inference算法包括前向后向算法和维特比算法。前向后向算法计算某个观测序列的概率,维特比算法用于状态序列估计。
应用HMM的典型例子是天气预测模型。其状态空间为{晴天,雨天},初始状态分布认为第一天是晴天。状态转移概率表明晴天翌日还晴的概率为90%,雨天翌日还雨的概率为70%。利用这些参数和观测序列,可以进行状态推断。
HMM由于其简单结构但强大推断能力,广泛应用于Sequncelearning和时序数据分析领域。
隐马尔可夫模型中包含两个随机变量:
隐马尔可夫模型包括:
通过Evidence和转移概率,可以推断出X在不同时刻的posterior概率分布,即信念分布(belief distribution)。
粒子滤波是求解隐马尔可夫模型的一种近似方法。它通过采样来估计信念分布:
在t=0时使用初值分布随机采样N个粒子,每个粒子代表一个可能的X状态。
当得到新Evidence时,根据观测模型将每个粒子的权重更新为该Evidence出现的概率。
根据每个粒子的权重,通过重采样将粒子分布近似更新为下一个时序的后验分布。
重复步骤2-3,随着时间的推移,粒子的分布将越来越准确地表示X在各个时刻的posterior分布。
粒子滤波同时考虑了转移概率和观测,将信念分布表示为一组加权样本,可以处理非线性和非高斯问题。它构成了隐马尔可夫模型推断的一种有效方法。
分类就是将输入映射到输出类别的机器学习任务。分类学习的典型应用包括垃圾邮件过滤、数字识别等。
分类学习的基本流程是:
收集带有类别标签的训练样本,比如带spam与ham标签的邮件样本。
从训练样本中提取特征,比如邮件内容中的单词。
通过学习算法从特征中学习分类模型。
使用模型进行新样本的预测,将其分类到某个类别。
垃圾邮件过滤是个典型的分类问题。其中:
输入是邮件内容,输出是spam与ham两类。
训练数据来源可以是手动标注,也可以来自用户在邮件系统中的实际操作。
特征包括邮件内容中的关键词,如”只需99美元”等可疑词汇。也可以考虑词组特征,如所有大写字母等。
模型需要聚合各个特征的证据,管理不确定性做出预测。
数字识别也是一个分类问题。其中:
输入是数字图片像素矩阵,输出是0-9十个数字类别。
需要大量带有手动标签的样本训练数据。
特征可以考虑轮廓,是否有断点等可视结构特征。
需要从限定样本中学习泛化能力,识别未见过的新数字。
下一步将介绍朴素贝叶斯分类器,它是一种非常简单但广泛应用的监督学习算法,能够解决上述两类问题。
感知机是机器学习中的一种线性分类算法,它采用权值向量和阈值来实现分类。
感知机的工作原理类似神经元。一个感知机包含以下元素:
所以,感知机的分类公式为:
f(x) = sign(w·x - θ)
其中:
logistic回归也是一种线性分类模型。它将激活函数从sign改为 sigmoid函数,使得输出是一个0到1之间的概率值,更符合真实问题。
logistic回归的分类公式为:
P(y=1 | x) = σ(w·x + b) |
σ(z) = 1/(1+e^-z) 是sigmoid函数,它的输出范围在0到1之间。通过改变w和b来拟合这个函数,从而实现分类。
线性分类器有多个输入特征,每个特征对应一个权重,用来表示对该特征的重要程度。特征值与对应的权重求内积,就是该分类单元的激活值。如果激活值大于0,则预测为正类;如果小于0,则预测为负类。
为了规避线性分类器无法处理非线性数据的问题,我们采用概率决策。将线性分类器的激活值通过sigmoid函数转换为0-1范围内的概率值。sigmoid函数满足:激活值很大时,对应类的概率近1;激活值很小时,对应类的概率近0。通过此方式,我们将线性分类问题转化为概率模型,找到概率模型的参数W来最大限度描述数据,这就是极大似然估计。
多类别分类将每个类对应的激活值通过softmax函数转换为0-1范围内的概率分布。softmax函数保证各类别概率总和为1。我们假设每个类别对应的激活值代表该类的可能性,softmax函数通过指数化实现“比例效应”,使得激活值较高的类对应的概率最大。参数W选择可以最大化训练数据Labels given Inputs的概率似然函数。
无约束下,我们可以暴力搜索所有可能的W参数,选择使数据集Labels given Inputs概率最大的那个。但这需要无限计算资源。实际上,我们可以用梯度下降法迭代优化参数W,每次微调W来提高数据似然函数值,逐步找到全局最优解。将这视为一个连续变量优化问题,每个W微调的搜索方向可以根据当前梯度的方向进行。
神经网络是一个非线性模型,包含输入层、隐藏层和输出层。输入层收集特征信息,隐藏层计算输入的权重和输入,并应用非线性激活函数,将信息传递到输出层。通过调整所有的权重,神经网络可以近似任意连续函数,从而完成分类任务。
训练神经网络需要优化目标函数,也就是最大化输出标记的概率对数。通过使用梯度下降算法,每次计算梯度后调整一小步权重,逐步提高目标函数值,找到一个较好的本地极大值。在训练过程中需要监控验证集的表现,以防止过拟合。训练完成后,神经网络即为分类模型。
计算机视觉任务中,常见问题是从图像中检测物体。早期通过手工设计特征来实现,如将图片转为边缘图,再计算每个区域梯度方向的直方图(HOG特征)。HOG特征较为鲁棒,不易受光照和角度变化影响。但这种方法难以大幅提升检测准确率。
2012年,Jeff Hinton的实验室采用AlexNet神经网络,参加ImageNet大型视觉识别竞赛,将错误率从30%下降到15%,突破了传统方法的瓶颈。这得益于大量数据集和GPU并行训练所提供的计算能力。此后深度学习在计算机视觉中迅速发展。
本课还简要介绍了决策树模型。决策树通过问答决策来判断样本分类。学习理论研究模型泛化能力,旨在避免过拟合。课后还有平时作业和第二次平时考核。这节课主要阐述了神经网络和决策树在机器学习中的应用,以及深度学习突破传统方法的背景。
最后一个业余篮球竞赛将于今晚截止,在这个竞赛中,你需要设计一个智能代理来与另一个代理协同收集食物块,同时躲避幽灵不被吃掉。还有一些工作人员代理参与竞赛,将与其他学生进行排名竞赛。
明天的课上将讨论竞赛结果。下周有一个项目deadline。本周还有一节课。家庭作业已经全部完成,但下周需要自我评估最后一项家庭作业。然后是最后一门考试,安排在后两周。
2016年3月,Google的AlphaGo连胜李世石,达到超越世界一流职业围棋高手的水平。随后,DeepMind研发出专门用于玩围棋或国际象棋的AlphaZero,不需要任何人类数据就能自行训练成为世界头号高手。
AlphaGo使用了两个深度神经网络 - 一个价值网络预测局面胜负结果,一个政策网络预测下个棋点。它通过自我对弈获取大量数据训练这两个网络,然后使用学习到的网络在限定层数展开中极大提示下,来选择最优着法。
与国际象棋相比,围棋的分支因子远大于国际象棋。简单的枚举搜索法在围棋中难以实施。而机器学习网络可以很好地近似评估函数,帮助搜索在合理深度内获取正确决策。
AlphaZero不需要任何人类数据,而是通过自我对弈从零开始学习,仅通过胜负结果来改进政策网络和价值网络。通过这种方式,它不断优化自己,超越了以往最强人机,甚至在其他棋类如国际象棋上也表现出色。
语言处理中有大量搜索应用。 deepest古扎将围棋和国际象棋中的AlphaGo Zero概念推广到其他棋类如将棋。机器人行为学习如飞行和脚踝机器人。处理不确定性如自动驾驶汽车。
自然语言处理是人工智能的一个重要领域,它研究如何处理和理解人类语言。
目前常见的自然语言处理应用包括语音识别、机器翻译、对话系统等。这些技术都利用自然语言处理来实现与人类交互。
理想状态下,自然语言处理系统应该能够像人类一样,理解语言内容的细微含义和语境。但当前技术水平尚无法达到这个程度,往往只能基于单词和模式匹配来处理语言输入。
语言的深度理解需要考虑语法结构、语义和语用学等多个层面。自然语言处理的目标是推进模型能力,实现对话上下文和语言细微含义的深度理解。
此次188课程的最后一场大赛中,学生需要开发智能代理合作完成一个啃食食物块的任务。
大赛共有32支队伍参与,进行了数千场比赛。决赛结果如下:
冠军队伍采用了基于奖励密度地图的策略。该策略会计算食物块和ghost位置的分布,根据地图优先选择收集食物。
亚军队伍使用强化学习方法,学习合作策略以避开ghost。
季军队伍采用特征评估函数,根据食物块、队友和ghost的距离选择策略。
此外,还展示了前三名队伍的游戏视频,展示其合作策略。
比赛结果公布后,还颁发了纪念奖牌给前三名队伍,以示鼓励。