学员论坛阿尔法狗原理ppt课件

资源描述

Deep LearningAamzingAamzingAlpha GoPPT模板下载： DeepDeep LearningLearningTensorFlowTensorFlow如何获取http:/ Go围棋棋盘19x19路，共是361个交叉点，每个交叉点有三种状态，可以用1表示黑子，-1表示白子-1，0表示无子。PPT模板下载： Alpha Go0101向人类学习，利用人类经验建立的，人类棋手围棋神经网络策略围棋程序深度卷积深度卷积神经网络神经网络0202蒙特卡洛蒙特卡洛搜索树搜索树0303利用阿尔法狗自我对弈训练起来的，针对现有局势评估的神经网络局势评估局势评估神经网络神经网络阿尔法狗的核心算法，利用蒙特卡洛方法建立起的局部最优解策略深度卷积神经网络右图为卷积神经网络（Convolutional Neural Network,CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。它包括卷积层(convolutional layer)和池化层(pooling layer)。左图为一个神经网络示意图蒙特卡洛搜索树蒙特卡罗算法：采样越多，越近似最优解；举个例子，假如筐里有100个苹果，让我每次闭眼拿1个，挑出最大的。于是我随机拿1个，再随机拿1个跟它比，留下大的，再随机拿1个我每拿一次，留下的苹果都至少不比上次的小。拿的次数越多，挑出的苹果就越大，但我除非拿100次，否则无法肯定挑出了最大的。这个挑苹果的算法，就属于蒙特卡罗算法尽量找好的，但不保证是最好的。Alpha Go第一次改进后的阿尔法狗，通过卷积神经网络得到的P_human()的落子概率，在可以落子的点上，利用蒙特卡洛搜索树在进行搜索，并重新修改得分胜利后的奖励分数方法新分数=初始分+通过模拟得到的赢棋概率Alpha Go自我博弈阿尔法狗再次引入利用深度学习网络构建了第二个大脑，局势评估网络，用来评估局面，是对整个棋局的输赢概率进行评判，如这个图，颜色越深就代表赢的可能性越大。训练这个大脑，人类的棋谱的数量已经无法胜任了，但是阿尔法狗可以通过自己和自己下棋，不断产生新的棋局来进行训练这个大脑。新分数=初始分+0.5*通过模拟得到的赢棋概率+0.5*局面评估分Alpha GoOneTwoThree可以评估结果的神经网络蒙特卡洛搜索树模仿人类下法的神经网络学习人类下棋思路，训练出一个深度学习网络通过第一个深度学习网络，找出下一步棋的数个备选走法通过“蒙树”不断模拟走下去的情况，找出相对最优的走法通过第二个深度学习网络，对整个棋局局势进行评估，进一步优化下一步走法两个大脑结合，反复模拟，直到找出最终的走法Alpha GoWhy not tryAlpha GoAlpha GoHere is what you needhttps:/

展开阅读全文

学员论坛阿尔法狗原理ppt课件

最新文档