csci561 期末复习

2017-07-26 本文已影响0人弹杯一笑

1.UCS DFS BFS A* search

2.Game Minimax, αβ pruning

3.CSP

4.FOL resolution proof 将结果取反，和原有条件搞出空集

5.Inference in FOL

forward chaining 由已知条件modus poneus和and introduction 得到最后结果
backward chaining 从结果出发进行替换得到所有结果，要画图的

6.CNF

7.Planing

Partial Order Plan

8.Neural Network 给一个网络看输出是什么或者设计

9.Naive Bayes

给一个情景，算概率
画Bayesian Network

10.Decision Tree

分类
算information Gain

image.png

11.Markov Decision Processes

箭头是Reward，每个格子里的是Untility U(s) = R(s)+𝛾maxa∑s1(P(s1|s,a)U(s1))
把格子填满后，各个方向就是Q值，Q值的计算：
如果计算完U值要计算Q值，就是用下面的式子：
有了策略π和立即回报函数r(s,a), Qπ(s,a)如何得到的呢？
对s11计算Q函数（用到了上面Vπ的结果）如下：
Qπ(s11,ar)=r(s11,ar)+ γ Vπ(s12) =0+0.9100 = 90
Qπ(s11,ad)=r(s11,ad)+ γ *Vπ(s21) = 72

Q值怎么计算：Q(E,3,2)那就是MaxQ(4,2)=U(4,2) 既是相应方向相邻格子的U(也是maxQ)

增强式学习要注意第一次不改值，只是找到terminal在哪里
这个是增强式学习的时候的式子，一般会给怎么行动的，Q(s,a)← Q(s,a) + ⍺(R(s)+𝛾 maxa’Q(s’,a’)−Q(s,a))

γ越大，小鸟就会越重视以往经验，越小，小鸟只重视眼前利益（R）
α为学习速率（learning rate），γ为折扣因子（discount factor）。根据公式可以看出，学习速率α越大，保留之前训练的效果就越少。折扣因子γ越大，

max_aQ(S', a) 所起到的作用就越大。
小鸟在对状态进行更新时，会考虑到眼前利益（R），和记忆中的利益（

max_aQ(S', a) ）。

image.png

12.Decision Networks

Compute expected utility (EU)
EU(AT∧¬SB) = P(Acc|AT∧¬SB)·U(Acc∧¬SB) +P(¬Acc|AT∧¬SB)·U(¬Acc∧¬SB)
随机事件在两个选择下的概率乘以Utility

image.png

13.Choose 2 homework3 projects, each one about a different dataset

Describe how each project relates to search, knowledge representation, reasoning about uncertainty, learning
Compare and contrast the two projects, describing limitations and strengths

14.Expected Untility

image.png

a 是action ，s'是a这个动作导致的结果，e是已经发生的事情比如 J,M

csci561 期末复习

1.UCS DFS BFS A* search

2.Game Minimax, αβ pruning

3.CSP

4.FOL resolution proof 将结果取反，和原有条件搞出空集

5.Inference in FOL

6.CNF

7.Planing

8.Neural Network 给一个网络看输出是什么或者设计

9.Naive Bayes

10.Decision Tree

11.Markov Decision Processes

12.Decision Networks

13.Choose 2 homework3 projects, each one about a different dataset

14.Expected Untility

猜你喜欢

热点阅读