资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,DQN,简述,Background,Q-learning,学习过程可写成下面公式,:,Background,上面的公式是,将旧的,Q-learning,函数,Q,old,(s,t,a,t,),向着学习目标,(,当前获得的,Reward,加上下一步可获得的最大期望价值,),按一个较小的学习速率学习,得到新的,Q-learning,函数,Q,new,(s,t,a,t,),。,其中学习速率决定了我们使用新获取的样本信息覆盖之前掌握的信息的比率,通常设为一个较小的值,可以保证学习过程的稳定,同时确保最后的收敛性。,Background,Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.,从,RL,看结合,Deep Learning,的困难之处,深度学习的成功依赖于大量的有标签的样本,从而进行有监督学习。而增强学习只有一个,reward,返回值,并且这个值还常常带有噪声,延迟,并且是稀少的。特别是延迟,常常是几千毫秒之后再返回。,深度学习的样本都是独立的,而,RL,中的,state,状态却是相关的,前后的状态是有影响的,这显而易见。,深度学习的目标分布是固定的。但增强学习,分布却是一直变化的。,增强学习要结合深度学习存在的三个问题:,没有标签怎么办?,样本相关性太高怎么办?,目标分布不固定怎么办?,解决之道,CNN + Q-Learning = Deep Q,Network:,通过,Q-Learning,使用,Q,value,来构造标签,通过,experience replay,的方法来解决相关性及非静态分布问题,DQN算法,DQN,算法,记忆库,(,用于重复学习,),神经网络计算,Q,值,暂时冻结,q_target,参数,(,切断相关性,),为了使用,Tensorflow,来实现,DQN,比较推荐的方式是搭建两个神经网络,target_net,用于预测,q_target,值,他不会及时更新参数,.,eval_net,用于预测,q_eval,这个神经网络拥有最新的神经网络参数,.,不过这两个神经网络结构是完全一样的,只是里面的参数不一样,.,DQN,网络结构,DQN,网络结构,DQN,结构设置,在,DQN,中引入卷积层,DQN,结构设置,加入,Experience Replay.,因为深度学习需要大量的样本,所以传统的,Q-learning,的,online update,的方法可能不太适合,DQN,。,Experience Replay,的主要思想是存储,Agent,的,Experience(,即样本,),,并且每次训练时随机抽取一部分样本供给网络学习。,DQN,结构设置,使用两个,DQN,网络。,第二个,DQN,网络用来辅助训练,一般称其为,target DQN,它的作用是辅助计算目标,Q,值,即提供学习目标公式里的,max,a,Q(s,t+1,a),。这样做的目的是避免让网络训练陷入目标,Q,值与预测,Q,值的反馈循环中。,DQN,结构设置,Double DQN,网络中在主,DQN,上通过其最大,Q,值选择,Action,,再去获取这个,Action,在,target DQN,上的,Q,值。这样主网络负责选择,Action,而这个被选定的,Action,的,Q,值则由,target DQN,生成。,Dueling DQN,Dueling DQN,将,Q,值的函数,Q(s,t,a,t,),拆成两部分,一部分是静态的环境状态本身具有的价值,V(s,t,),称为,Value;,另一部分是动态的通过选择某个,Action,额外带来的价值,A(a,t,),称为,Advantage,。而,Q,值由这两部分组合而成:,DQN,结构设置,DQN-environment,Dueling DQN,DQN,DQN,DQN,thanks,
展开阅读全文