CS294踩坑记录(一)

最近跟着叉姥爷学习RL,上学期感觉看了看David的课没怎么看懂,所以就先看看CS294好了。。然后这次只记录一下目前看的一些部分的笔记,主要是Dagger的一个bound的证明,以及自己在做homework1的一些想法。

作业参考资料(因为我只会pytorch,所以找到了两个pytorch版本的,但是未完成的作业参考):1.https://github.com/KuNyaa/berkeleydeeprlcourse-homework-pytorch 2.https://github.com/PengZhenghao/CS294-Homework

其实这里的\(O(\epsilon t^2)\)更多的是类似于一步以概率为\(\epsilon\)出错后,剩下的都是以概率为1继续出错。 再说说作业吧。。其实使用openai的gym实际上相当于有了个环境进行交互,我写的agent部分很简单就是MLP,但是实验了一下发现使用多层MLP的效果其实远远不如单层MLP,不管是BC还是DA(这个对比实验只在Ant-v2这个task上做了)。可能是多层导致更容易对训练数据过拟合?而且其实DA效果非常不稳定,方差很大,还是达不到专家网络的效果。

发表评论

电子邮件地址不会被公开。 必填项已用*标注