DeepMind销售团队的训练游戏用什么棋谱来训练AlphaGo

solidworks | PHP | c4d | 细胞生物学 | HTML | 冬奥会 | 基因 | 营销策划 | 扫地机器人 | 武侠 | 大学生就业 | 电学 | 国航 | 电子技术研发 | 几何学 | 外星人 | 语言学 | 秦时明月之天行九歌 | 金融数学 | 三国人物 | 休学 | 小店区 | 杨紫 | 植保无人机 | CSS | 陶渊明 | 少数民族 | AutoCAD | 3d打印机 | 香港购物 | 日语语法 | 对联 | matlab | 按键精灵 | 粉丝（Fans） | 语言学习 | 总决赛 | 驾驶经验 | Spss数据分析 | 日本漫画 | 数学建模 | 道德 | 项目管理 | 背景音乐（bgm） | 云主机 | 3D Max | onenote | 游戏原画 | 科学 | 网站建设 | 热血传奇（游戏） | 身高 | 网站运营 | 道教 | 社会学 | 迅雷（软件） | 爬虫（计算机网络） | O2O | 运载火箭 | 遗传学 | 率土之滨 | 百度输入法 | 极限挑战(综艺节目) | 电梯 | 女性主义 | Adobe After Effects | mysql | 办公软件 | 法国 | ps3 | 化学实验 | QQ群 | 中国中央电视台 | 前女友 | 性格 | 免费软件 | 分子生物学 | 金庸小说 | 留学生 | Microsoft SQL Server | 龙珠 | 设计院 | C#编程 | 虚拟机 | 字幕 | 微信群 | 创业项目 | 祛痘 | 图形处理器（gpu） | Microsoft Visual Studio | 动物保护 | C/C++ | facebook | 秦岭 | 燕窝 | 人性 | 下载 | 驾驶技术 | 大学数学 | 封神演义 | 整容 | 西装 | 马克思主义哲学 | 计算机专业 | pdf | thinkpad | 代理 | 参考文献 | 江苏大学 | 游戏手柄 | 城市规划 | 黑洞 | 旅行 | CAD制图 | 风水 | 直播 | 快捷键 | 编辑器 | 机器学习 | 暴走大事件 | 球球大作战 | unity（游戏引擎） | 永恒之塔 | DJI大疆创新 | 传统文化 | wordpress | 仙剑奇侠传（游戏） | 国际物流 | 安徽 | 配音 | 猎头公司 | 在线教育 | 欧洲冠军联赛 | ios游戏 | 洛奇英雄传 | 暗恋 | 网盘 | 星座爱情 | 剧场版 | 面相 | 讯飞输入法 | 记忆力 | 超级战队 | stm32 | 亚马逊中国 | Apple ID | 服装设计 | 网络主播 | 品牌营销 | 情侣 | 新加坡 | 调酒 | 雷欧奥特曼 | 花样姐姐 | 物联网 | 任天堂3ds | 易经 | 户型 | 流氓软件 | 圣经 | 进化 | 垃圾分类 | 函数 | 星际穿越（电影） | 山东工艺美术学院 | 优酷视频 | github | 舰队 Collection | 流行音乐 | 进击的巨人 | playstation vita | 科学研究 | 欢乐麻将 | 史莱姆 | 海关 | Internet Explorer | 刑事案件 | 取名 | 江苏银行 | eDonkey网络 | 表情包 | mfc | 大学军训 | 诸葛亮 | Apple WATCH | 嵌入式系统 | 私募证券投资基金 | iOS应用 | 对外经贸大学 | 最强大脑（电视节目） | 青蛙 | 日本代购 | 巧克力 | 天涯明月刀ol（游戏） | 食用油 | 曹操 | SEO | 生命 | 乌贼 | 我的英雄学院 |

你的位置：网站首页 >> 频道首页 >>游戏 >>DeepMind销售团队的训练游戏用什么棋谱来训练AlphaGo

DeepMind销售团队的训练游戏用什么棋谱来训练AlphaGo

来源：蜘蛛抓取(WebSpider) 时间：2017-08-07 07:43 标签：团队建设拓展训练

经过一年的修炼，AlphaGo的哪些能力突飞猛进了？_凤凰资讯
经过一年的修炼，AlphaGo的哪些能力突飞猛进了？
用微信扫描二维码分享至好友和朋友圈
雷锋网AI科技评论按：乌镇围棋峰会第一局已经结束了，历时4个半小时，以柯洁九段执黑负于 AlphaGo，AlphaGo 赢四分之一子告终，这样风平浪静的结果想必很多人都预测到了，不过大家从一开始就知道关注的重点，不在于柯洁怎么输的，而是AlphaGo已经进化到什么程度了，距离Deep Mind团队出论文来详解AlphaGo有多强还有一段时间，So我们其实可以从现场观战中来看出一些端倪。
第一局棋下到一半的时候，不少棋友群里的人沸腾了，发现AlphaGo落子速度非常快，每步棋落子速度在30S－40S之间波动，对此围棋业余5段赵老师对雷锋网AI科技评论表示：“（这局棋）像安乐死，不知不觉就输了，（相比去年）机器落子飞快但错误基本没有”。
综合整局，AlphaGo落子表现冷静、果断，而柯洁的落子状况较多变。最终在比赛进行了四个多小时之后，AlphaGo赢四分之一子。
AlphaGo1.0的时候（去年3月跟李世石对战的时候），它的棋风概括起来就是擅长记住棋谱+增强学习+计算能力，身上还能看到人类棋风的影子，等AlphaGo乔装成Master60连胜的时候，许多围棋大师包括聂卫平在内开始评价其棋风“很难揣测Master的风格……它永远都没有表情，永远不受情绪影响，永远一个节奏，就是要赢你。”而今天，第一局棋还没结束的时候，搜狗王小川已在知乎上发文剖析AlphaGo2.0 棋风“完全脱离人类经验”——“而AlphaGo2.0脱离了机器对人模仿，走棋风格也将完全脱离人的定式。在与柯洁的比赛中，会不断出现我们意想不到的走棋，而且这些走棋在教科书中会被认为是低级错误或者完全不可理喻，但凡一个正常的棋手都不会这么玩，但凡一个新手这么玩都会被点拨这样不对。而AlphaGo2.0会不断制造这样的局面，关键他还是对的。”
不过最后还是柯洁说了算，他在会后的采访中用了一个很好的例子说明了AlphaGo的棋风莫测：（在回顾比赛时也对第54手的断）时，他表示了肯定：“很震惊，这在人类的下法中是不能有的。在断之后，它把自己的脚步实地化，变得更厚，一石二鸟。”。
AlphaGo1.0的时候（去年3月跟李世石对战的时候）使用的算法精髓，根据FB田渊栋看完Nature论文的解读，由估值网络评估棋局，策略网络选择落子，快速走子（Fast rollout）适当加速，再用蒙特卡罗树搜索把以上这三个部分连起来，形成一个完整的系统。
这一次虽然知乎论坛等活跃地盘已经开始纷纷推测这次的AlphaGo2.0用了什么牛叉的算法，有了硬件的预测失误，真相还是等Deep Mind后面来亲自公布，目测算法预测这个要根据它的单机版10个GPU＋TPU助力预测比较靠谱。
硬件需求降低
根据DeepMind员工发表在2016年1月Nature期刊的论文，分布式版本（AlphaGo Distributed）使用了1202个CPU和176个GPU。
不过这次比赛AlphaGo用的何种硬件配置，DeepMind在会后的新闻发布会中表示，这次比赛的AlphaGo是新版本，它改善了新的算法，主要进步是计算量少了十倍，自我对弈更强。Hassabis称，在比赛中程序是在一个单一的机器上运作的，这与去年不一样，当时是分布式的。这次有更强大的算法，运作起来更简单也更好，获得的速度更快。另外Hassabis表示，计算力可以“在Google云中获得，用的是TPU，十个处理单位，少了十倍的计算量”。简单点说，这次的AlphaGo是单机版。
哈萨比在此链接中的剑桥大学的一次演讲中提到，以前从零训练一个AlphaGo要三个月，现在只需要一个星期（“We also optimized the performance. It used to take 3 month to train a new version of AlphaGo from scratch. Now we can do it in one week.”）。
如果称对战李世石期间的版本为V18迭代版本，乔装成Master60连胜并宣布升级完成的时刻为V25版本，现在的AlphaGo又是V多少版本，训练的时候会不会一周都不要了？这是我们明天要亲自问DeepMind团队的。
从单人对战到团队对战
心细的朋友肯定注意到了，柯洁和AlphaGo对弈之外，5月26号上午还有一场配对赛，配对赛双方－－－古力＋AlphaGoV连笑＋AlphaGo，即对弈双方分别由一位棋手与AlphaGo组成，棋手与AlphaGo合作进行比赛。5月26号上午下午则是陈耀华，周睿羊，芈昱延，时越，唐韦星和AlphaGo的5对1团队赛。
Google之所以敢这样设置赛制，唯一的解释就是，AlphaGo现在既懂人类下围棋的那部分，又懂AI下围棋的那部分，并可以做到融会贯通，所以它才敢挑战配对赛这种跟另一个同伴高度配合的赛制，又敢挑战测试自己“战斗力”极限的团体赛。AI最可怕的部分不是它单个力量有多强，而是它开始懂得和周遭“互动”，这样的融汇是不是比去年3月的人机大战可怕多了呢？
上次AlphaGo乔装成Master测试的时候，柯洁已经落败给Master过一次，他不是没见识过AI围棋的厉害，但结合柯洁今天在现场的冷静表现，和他昨晚莫名其妙地深夜感慨，我们有理由相信，这不是一场比AI围棋选手和人类围棋选手哪个更厉害的选手，DeepMind团队一定有些悬而未决的答案需要这场比赛给一个肯定的验证，然后再往那个方向实现更深一步的探索。
雷锋网AI科技评论现场报道，未经许可，拒绝转载。
用微信扫描二维码分享至好友和朋友圈
凤凰资讯官方微信
播放数：2397175
播放数：593865
播放数：1839468
播放数：5808920(window.slotbydup=window.slotbydup || []).push({
id: '4016716',
container: s,
size: '800,80',
display: 'inlay-fix'
DeepMind团队(google旗下)的 AlphaGo (一个围棋的AI)以4:1战胜顶尖人类职业棋手李世石。她到底是怎么下棋的?AlphaGo在面对当前棋局时，她会模拟(推演棋局)N次，选取“模拟”次数最多的走法，这就是AlphaGo认为的最优走法。
来源：中国大数据
中国IDC圈6月3日报道，DeepMind团队(google旗下)的&AlphaGo&(一个围棋的AI)以4:1战胜顶尖人类职业棋手李世石。她到底是怎么下棋的?
AlphaGo在面对当前棋局时，她会模拟(推演棋局)N次，选取&模拟&次数最多的走法，这就是AlphaGo认为的最优走法。
例如图中，所有没有落子的地方都是可能下子的，但在模拟中，右下那步走了79%次，就选那一步了，就那么简单。后面你会发现，&模拟&次数&最多&的走法就是统计上&最优&的走法。
1.啥是模拟?
模拟就是AlphaGo自己和自己下棋，相当于棋手在脑袋中的推演，就是棋手说的&计算&。
AlphaGo面对当前局面，会用某种(下面会讲)策略，自己和自己下。其中有两种策略：往后下几步(提前终止，因为AlphaGo有一定判断形势的能力);或者一直下到终局(终局形势判断相对简单，对于棋手简单，对于机器还有一定难度，但是这个问题已经基本解决)。对于棋手来说就是推演棋局。
AlphaGo会模拟多次，&不止一次&。越来越多的模拟会使AlphaGo的推演&越来越深&(一开始就1步，后来可能是几十步)，对当前局面的判断&越来越准&(因为她知道了后面局面变化的结果，她会追溯到前面的局面，更新对前面局面的判断)，使后面的模拟&越来越强&(更接近于正解，她后面模拟出来的着法会越来越强)。怎么做到的?看她怎么模拟的。
注意，这里的模拟是下棋(线上)时的模拟，后面还会有个学习时的模拟，不要混淆了。
2.AlphaGo怎么模拟的?
每次模拟中，AlphaGo自己和自己下。每步中由一个函数决定该下哪一步。函数中包括了以下几个方面：这个局面大概该怎么下(&选点：policy net)，下这步会导致什么样的局面，我赢得概率是多少(形势判断：value net 和rollout小模拟)，鼓励探索没模拟过的招法。这些英文名词后面会有解释。
模拟完一次后，AlphaGo会记住模拟到棋局，比如几步以后的棋局。并且计算这时policy，value。因为这时已经更接近终局了，这时的值会更加准确(相对于前面的模拟或局面)。AlphaGo还会用这些更准的值更新这个函数，函数值就越来越准了，所以模拟的每一步越来越接近正解(最优的下法)，整个模拟越来越接近黑白双方的最优下法(主变化，principle variation)，就像围棋书上的正解图一样。到此为止，你已经大概了解AlphaGo她怎么工作的了，下面只是一些细节和数学了。
3.那个函数是啥，好神奇?
这个函数，分为两个部分。
Q是action value，u是bonus。Q其实就是模拟多次以后，AlphaGo计算走a这步赢的概率，其中会有对未来棋局的模拟(大模拟中的小模拟)，和估计。u中包括两个部分。一方面根据局面(棋形)大概判断应该有那几步可以走，另一方面惩罚模拟过多的招法，鼓励探索其他招法，不要老模拟一步，忽略了其他更优的招法。
4.Q(action value)具体是什么?
Q看上去有点复杂，其实就是模拟N次以后，AlphaGo认为她模拟这步赢得平均概率。
分母N是模拟这步棋的次数。
分子是每次模拟赢的概率(V)的加和。
其中V又包括两部分，value net对形势的判断。和一个快速模拟到终局，她赢的概率。
value net是说她看这个这个局面，就要判断赢的概率，&不准&往下几步想了。value net下面详细讲。
快速模拟是说她看这个这个局面，自己和自己下完，看看黑白谁赢的概率高。快速模拟是我们这个大模拟中的一个小模拟。
Q就是看当下(value net)，也看未来(快速模拟)，来决定怎么模拟(对人来说就是往哪里想，对于棋手就是思考哪些可能的着法)，下棋方(模拟中下棋方黑白都是AlphaGo)下那一步赢的概率高，从而决定模拟下那一步。
5.u(bonus)具体是啥?
u中包括两个部分。
分子是AlphaGo根据当前局面判断(policy net)，不模拟，比如棋手根据棋形大概知道应该有哪几步可以走。
分母是模拟到现在走当前步的累加，越大下次模拟越不会走这了。
一句话，(Q+u)就是决定模拟中，下棋方会走(模拟)哪里。
到此，我们大概了解了AlphaGo的两大神器：value net(形势判断：模拟中，我走这步，我赢的概率是多少)和policy net(选点：模拟中，这个局面我走那几步最强)。下面会揭开他们神秘的面纱。
6.为什么选模拟次数最多的一步?
根据以上的函数可知，模拟次数最多一步，其实就是在多次模拟中，AlphaGo认为那一步最可能赢的次数的累加(或平均，除以总模拟次数)。
7.为什么要分为policy net(选点)和value net(形势判断)呢，选点和形势判断不是一个东西吗?
确实，选点和形势判断是互相嵌套的。首先，围棋的形势判断是非常困难的。在围棋直播中我们经常看到，职业9段也不能准确判断当前局面，除非地域已经确定，没有什么可以继续战斗的地方，一般也就是接近终局(官子阶段)。即使职业棋手，选点和判断也是定性的成分偏多，定量的成分偏少。以前说中国顶级棋手古力能推演到50步，已经非常强了。
再说嵌套问题，准确的定量的选点和判断，就要计算(对于棋手是在脑子里推演，对于机器就是模拟)才行。在推演中，我选点走那步决定于，走这步后我赢的概率，而这个概率又决定于对手走那一步(我会假设对手弈出她最强的一步，对我最不利)，对手走那一步决定于，她走那步后，她对形势的判断要对她最好，这又取决于我的下下步(第3步了)走哪里(对手她也会假设我会下出对她最不利的一步，自然对我最优)，从而不断的嵌套，这个&死结&要到终局(或者接近)才能解开(终局形势判断比较简单)。所以不到终局，判断形势是非常困难的，即使职业的9段也不行。这就是围棋比象棋难的关键所在，它没有简单的形势判断的方法，而象棋有。
要回答这个问题7还要看下面了。
8.AlphaGo是怎么打开这个死结的?
AlphaGo没有进行直接的形势判断，就是没有直接学习value net，而是先做一个选点(policy net)程序。选点可以认为是一个时序(走棋)的一个局部问题，就是从当前局面大概判断，有哪几步可能走，暂时不需要推演(那是模拟的工作)。棋手的选点是会推演的，这里的基础policy net是不推演的，前已经看到AlphaGo线上模拟中选点(Q+u)是有推演的。
所以policy net是用在&每次模拟&中，搜索双方可能的着法，而最优步的判断是&N次模拟&的任务，policy net不管。此外policy net还用来训练value net，也就是说，value net是从policy net 来的，先有policy 才有value。
选点(policy net)能成立吗?如果不成立，也是没用。
9.第一神器policy net怎么工作的?
先大概看下这个图。现在轮到黑棋下，图上的数字是AlphaGo认为黑棋应该下这步的概率。我们还发现，只有几步(2步在这个图中)的概率比较大，其他步可能性都很小。这就像职业棋手了。学围棋的人知道，初学者会觉得那里都可以走，就是policy(选点)不行，没有选择性。随着棋力增长，选择的范围在缩小。职业棋手就会锁定几个最有可能的走法，然后去推演以后的变化。
AlphaGo通过学习，预测职业选手的着法有57%的准确率。提醒一下，这还是AlphaGo&一眼&看上去的效果，她没开始推演(模拟)呢。而且她没预测对的着法不一定比职业棋手差。
policy net怎么学习的，学啥?
首先，policy net是一个模型。它的输入时当前的棋局(19*19的棋盘，每个位置有3种状态，黑，白，空)，输出是最可能(最优)的着法，每个空位都有一个概率(可能性)。幸运的是，着法不像形势判断那么无迹可寻。我们人已经下了千年的棋。policy net先向职业选手学习，她从KGS围棋服务器，学习了3000万个局面的下一步怎么走。也就是说，大概职业选手怎么走，AlphaGo她已经了然于胸。学习的目的是，她不是单纯的记住这个局面，而是相似的局面也会了。当学习的局面足够多时，几乎所有局面她都会了。这种学习我们叫做&监督学习&(supervised learning)。以前的职业棋手的棋谱，就是她的老师(监督)。
AlphaGo强的原因之一是policy net这个模型是通过深度学习(deep learning)完成的。深度学习是近几年兴起的模拟人脑的机器学习方法。它使AlphaGo学习到的policy更加准确。以前的AI都没有那么强的学习能力。
更加厉害的是，AlphaGo从职业棋手学完后，感觉没什么可以从职业棋手学的了。为了超越老师和自己，独孤求败的她只能自己左右互搏，通过自己下自己，找到更好的policy。比如说，她从监督学习学到了一个policy，P0。
AlphaGo会例外做一个模型P1。P1一开始和P0一样(模型参数相同)。稍微改变P1的参数，然后让P1和P0下，比如，黑用P1，白用P0选点，直到下完(终局)。模拟多次后，如果P1比P0强(赢的多)，则P1就用新参数，否则，重新再原来基础上改变参数。我们会得到比P0强一点点的P1。注意，选点是按照policy的概率的，所以每次模拟是不同的。多次学习后AlphaGo会不断超越自己，越来越强。这种学习我们叫做增强学习(reinforcement learning)。它没有直接的监督信息，而是把模型发在环境中(下棋)，通过和环境的互相作用，环境对模型完成任务的好坏给于反馈(赢棋还是输)，从而模型改变自己(更新参数)，更好的完成任务(赢棋)。增强学习后，AlphaGo在80%的棋局中战胜以前的自己。
最后，AlphaGo还有一个mini的policy net，叫rollout。它是用来上面所说的模拟中，快速模拟的终局的。它的输入比正常policy net小，它的模型也小，所以它的耗时是2微妙，而一个policy要3毫秒。它没有policy准，但是它快。
总结一下policy。它是用来预测下一步&大概&该走哪里。它使用了深度学习，监督学习，增强学习等方法。它主要用于每次模拟中的bonus的先验(我大概该怎么走)，和value net的学习(后面的重点)。
如果单纯用policy预测的着法来作为最优着法，不通过value net的计算和上面说的模拟，对职业棋手那是不行的。但是，单纯用policy预测已经足够打败以前的围棋AI(大约有业余5段实力)了。这说明了上面3种学习方法的强大威力。
AlphaGo就看了一眼，还没有推演，你们就败了。policy net为解开那个死结走出了第一步，下面我们就讲讲这第二个&神器&：value net。
10.第二神器value net怎么工作的?
前面说了，形势判断是什么无迹可寻，就连职业9段也做不到。有了policy net，整个世界都不一样了。AlphaGo她的灵魂核心就在下面这个公式里。
V*(s)=Vp*(s)约等于Vp(s)。
s是棋盘的状态，就是前面说的19*19，每个交叉3种状态。
V是对这个状态的评估，就是说黑赢的概率是多少。
V*是这个评估的真值。
p*是正解(产生正解的policy)
p是AlphaGo前面所说学到的最强的policy net。
如果模拟以后每步都是正解p*，其结果就是V*，这解释了等号。
如果你知道V*这个函数，在当前局面，你要对走下一步(围棋平均有250种可能性)后的状态s进行评估，选最大的V*走就行。围棋就完美解决了。但是，前面说了，V*不存在。同样p*也不存在(理论上存在，实际因为搜索空间太大，计算量太大找不到。在5*5的棋盘中下棋可以做到)。
AlphaGo天才般的用最强poilicy，p来近似正解p*，从而可以用p的模拟Vp来近似V*。即使Vp只是一个近似，但已经比现在的职业9段好了。想想她的p是从职业选手的着法学来的，就是你能想到的棋她都想到了。而且她还在不断使的p更准。顶尖职业棋手就想以后的20-40步，还会出错(错觉)。AlphaGo是模拟到终局，还极少出错。天哪，这人还怎么下。
围棋问题实际是一个树搜索的问题，当前局面是树根，树根长出分支来(下步有多少可能性，棋盘上的空处都是可能的)，这是树的广度，树不断生长(推演，模拟)，直到叶子节点(终局，或者后面的局面)。树根到叶子，分了多少次枝(推演的步数)是树的深度。树的平均广度，深度越大，搜索越难，要的计算越多。围棋平均广度是250，深度150，象棋平均广度是35，深度80。如果要遍历围棋树，要搜索250的150次方，是不实际的。这也是围棋比象棋复杂的多的原因之一。但更重要的原因前面讲了：是象棋有比较简单的手工可以做出的value函数。比如，吃王(将)得正无穷分，吃车得100分，等等。1997年打败当时国际象棋世界冠军的DeepBlue就是人手工设计的value。而围棋的value比象棋难太多了。手工根本没法搞。又只能靠深度学习了。
在讲value的原理前，先看看定性看看value的结果。如图，这是AlphaGo用value net预测的走下一步，她赢的概率。空的地方都被蓝色标示了，越深说明AlphaGo赢的概率越高。这和我们学的棋理是相符的，在没有战斗时，1,2线(靠边的地方)和中间的概率都低，因为它们效率不高。而且大多数地方的概率都接近50%。所以说赢棋难，输棋也很难。这当然排除双方激烈战斗的情况。
这里讲讲怎么通过policy net 得到value net。有了policy，value就不是那么难以捉摸了，死结打开了。AlphaGo可以模拟(自己和自己下，黑白都用最强的policy)，直到终局。注意，这里的模拟和最初说的模拟有点不同。最初的模拟是AlphaGo在下棋(线上)中用的，用来预测。这里的模拟是她还在学习(线下)呢。终局时V*(谁赢)就比较容易判断了。当然，对机器来说也不是那么容易的，但相对于中局来说是天渊之别。
value net也是一个监督的深度学习的模型。多次的模拟的结果(谁赢)为它提供监督信息。它的模型结构和policy net相似，但是学的目标不同。policy是下步走哪里，value是走这后赢的概率。
总结一下，value net预测下一走这后，赢的概率。本身无法得到。但是通过用最强policy来近似正解，该policy的模拟来近似主变化(就围棋书上那个，假设书上是对的)，模拟的结果来近似准确的形势判断V*。value net用监督的深度学习去学模拟的得到的结果。value net主要用于模拟(在线，下棋的时候)时，计算Q值，就是平均的形势判断。
再回顾一下模拟，模拟的每一步是兼顾：模拟到现在平均的形势判断value net，快速rollout模拟到终局的形势判断，根据当前形势的选点policy，和惩罚过多的模拟同一个下法(鼓励探索)等方面。经过多次模拟，树会搜索的越来越广，越来越深。由于其回溯的机制，Q值越来越准，下面的搜索会越来越强。因为每次的Q值，都是当前模拟认为的最优(排除鼓励探索，多次后会抵消)，模拟最多的下法(树分支)就是整个模拟中累积认为最优的下法。
到此为止，AlphaGo她神秘的面纱已经揭开。她的基本框架见下图。下棋时的线上过程是图中红箭头。线下的准备工作(学习过程)是蓝箭头。。再串一下。AlphaGo下棋(线上)靠模拟，每次模拟要选下那一步，不是简单的选点policy就完了，而是要参考以前模拟的形势判断，包括：value net和快速模拟(小模拟)到终局，鼓励探索，policy(先验)，就是(Q+u)，它比单纯的policy准。她选择模拟最多的下法(就是平均最优)。这是线上，下着棋了。之前(线下)，她要训练好policy模型，rollout模型和value 模型。其中，policy，rollout可以从棋谱，和自己下棋中学到。value可以从用学好的policy下棋的模拟结果监督学到。从而完美解决value学不到的问题和policy和value互相嵌套的死结。从棋谱直接学value net现在还不行。
11.AlphaGo用到哪些技术?
AlphaGo在树搜索的框架下使用了深度学习，监督学习和增强学习等方法。
以前最强的围棋AI使用蒙特卡洛树搜索的方法。蒙特卡洛算法通过某种&实验&的方法，等到一个随机变量的估计，从而得到一个问题的解。这种实验可以是计算机的模拟。让我们看看蒙特卡洛树搜索怎么模拟的。算法会找两个围棋傻子(计算机)，他们只知道那里可以下棋(空白处，和非打劫刚提子处)，他们最终下到终局。好了，这就可以判断谁赢了。算法就通过模拟M(M&&N)盘，看黑赢的概率。可以看到这明显的不合理。因为每步是乱下的。有些棋根本就不可能。即使如此，这个算法可以达到业余5段左右水平。
AlphaGo可不是乱下，她是学了职业棋手着法的。所以AlphaGo的搜索叫beam search(只搜索几条线，而不是扫一片)。前面也可以看到AlphaGo认为的可能着法就几种可能性，而不是随机的250种。这就是从250的150次方到几(&10)的n(n&&150，可以提前终止搜索，因为有value net)次方，的计算量降低。虽然AlphaGo每次模拟的时间更长(因为要深度模型的预测policy和value，不是乱下)，但是AlphaGo的模拟次数可以更少，是蒙特卡洛树搜索的1/15000。就是说AlphaGo的搜索更有目的性了，她大概知道该走哪里。解说说她下棋更像人了。我会说她下棋更像职业棋手，甚至超过职业棋手。线下的学习使得她的行为(模拟)有了极强的目的性，从而完成最终目标(赢棋)。
12.什么是打劫?
打劫，是指黑白双方都把对方的棋子围住，这种局面下，如果轮白下，可以吃掉一个黑子;如果轮黑下，同样可以吃掉一个白子。因为如此往复就形成循环无解，所以围棋禁止&同形重复&。根据规则规定&提&一子后，对方在可以回提的情况下不能马上回提，要先在别处下一着，待对方应一手之后再回&提&。如图中的情况：
打劫因为反复走同一个点，会使搜索树的深度加大，而且因为其他位置劫才会影响劫的输赢，劫才之间又相互影响，有可能打劫中又产生新的劫。总之，打劫规则会使围棋的复杂度加大。
因为前两局棋没有下出打劫，有人会怀疑DeepMind和李世石有不打劫协议。在后面的棋局中，AlphaGo确实下出了主动打劫。而且从算法层面看，打劫也不会是她的模拟框架崩溃(可能会有一些小麻烦)。
13.遇强则强，遇弱则弱?
AlphaGo的表现似乎是遇强则强，遇弱则弱。这可能是由于她的学习监督信息决定的。policy和value学习时，和rollout模拟时，最后的结果是谁赢(的概率)，而不是谁赢&多少&(赢几目)。所以在AlphaGo领先时(几乎已经是常态了)，她不会下出过分的棋，她只要保证最后赢就行了，而不是像人一样要赢的多，赢的漂亮。即使有杀大龙(一大块棋)的机会，她也不一定杀，而是走温和的棋，让你无疾而终。估计只有在AlphaGo判断她大大落后的时候，她才会冒险走过分的棋(这好像不常见)。
14.AlphaGo下棋为什么花钱?
AlphaGo有单机版，多机(分布式)。分布式明显比单机强。去年的分布式有40个搜索线程，1202个CPU，176个GPU(显卡)。和李世石下棋时可能更多。这么多机器的运作和维护就是烧钱。
15.AlphaGo有漏洞吗?
AlphaGo解决的是一个树搜索问题，并不是遍历所有着法的可能性，她的着法只是接近正解，不是一定正解。
最简单的人战胜AlphaGo的方法就是改规则，比如扩大棋盘。人类能比较简单的适应，搜索空间增大，AlphaGo不一定能适应。
就现有状况来说，棋手可以主要攻击AlphaGo模拟中的着法选择函数a。比如尽量下全局互相牵扯的棋(多劫，多块死活)，就是尽量是中盘局面复杂，不要搞一道本(一条路走到底)局部的着法，当然，这对职业选手也不简单。
16.AlphaGo有哪些技术突破，使她能战胜人类顶尖棋手?
继承了蒙特卡洛树搜索的框架进行模拟。
在学习policy中使用了监督学习，有效的利用现有的棋手的棋谱，学到了他们的选点策略。
在学习policy中使用了增强学习，从左右互搏中提高自己。
利用policy net(选点模型)近似正解，用policy net的对弈的结果模拟正解对弈的结果，即正确的形势判断，从而打破形势判断和选点相互嵌套的死结。就是先学policy，再学value。
在学习policy， value， rollout中使用深度学习模型。深度学习有非常强的学习能力。使得选点和形势判断前所未有的准(对比蒙特卡洛是随机选点，现在是职业棋手帮她选点了)。因为在每次模拟中用到了这两个&准&，使得在树搜索(就是推演)的过程更有目的性(树大量减枝，只模拟比较优良的下法)。
当然还有机器一贯的优势，不疲劳，不受心理情绪影响，不会错的记忆力等等。
关注中国IDC圈官方微信：idc-quan或微信号：我们将定期推送IDC产业最新资讯
就在这几天，围棋高手们都在讨论一个叫做“Master”的神秘账号。从12月29日开始，它开始在弈城、野狐等围棋对战平台上轮番挑战各大围棋高手，截至1月3日中午，已经取得了不
Climate FieldView实现与农艺、零售、农机平台之间的数据互联，帮助农民挖掘农田大数据潜力
据国外媒体报道，谷歌旗下人工智能公司DeepMind已获得许可，以访问英国国家医疗服务系统（NHS）的约160万病人数据。
近日，在国际围棋史上发生了一件机器人“逆袭”人类的真实事件：AlphaGo完胜韩国世界冠军李世石震惊全球，人工智能顿时引发全民关注。AlphaGo让大家认识到了人工智能的强大
中科院深圳先进技术研究院集成技术研究所副所长乔宇所带领的团队是国内早期开展人工智能研究的科研组织，对于这场人机大战，乔宇并不认为这代表人工智能强于人类。人工智能
热门会议：
我们的服务：

DeepMind销售团队的训练游戏用什么棋谱来训练AlphaGo

我要回帖

更多关于团队建设拓展训练的文章

随机推荐

DeepMind销售团队的训练游戏用什么棋谱来训练AlphaGo

我要回帖

更多关于 团队建设拓展训练 的文章

随机推荐

更多关于团队建设拓展训练的文章