Google宣布AlphaGocf比赛服最新版本本 又要比赛下棋了吗

谷歌宣布AlphaGo最新版本 击败战胜李世石的软件|李世石|AlphaGo|版本_新浪科技_新浪网
& 滚动新闻 &&正文
谷歌宣布AlphaGo最新版本 击败战胜李世石的软件
  【PConline资讯】据报道,由Google子公司DeepMind子公司研发的围棋人工智能程序AlphaGo(阿尔法狗)获得了巨大的更新,使其变得比以往任何时候都更加智能,而且可能更为复杂。在《自然》发表的一篇文章中,该公司透露最新版本的AI——AlphaGo Zero,不需要进行人力培训,以使自己更好,甚至可以打败自己的过去版本。  该公司表示,AlphaGo Zero的研发与其前身有很大不同。研究团队不是根据已知的人类发展战略使AI智能化,而是经过短暂的训练使软件能够轻松击败此前的版本。 AlphaGo Zero能不断更新自己的游戏知识,越来越好。  经过三天的不间断比赛,Zero能够击败去年已经战胜人类围棋世界冠军的AlphaGo版本。事实上,AlphaGo Zero连续赢得了100场比赛,取得全胜战绩。  AlphaGo Zero的主要研发程序员David Silver在新闻发布会上解释说:“通过不使用人类数据 - 通过不以任何方式使用人力知识,我们实际上已经消除了人类知识的限制。因此,它能够从第一原则创造知识。”  简而言之,通过不试图模仿最好的人类围棋选手,AlphaGo Zero实际上消除了任何偏见或疏忽,从而创造出更为纯粹的策略。
我不知道未来的世界会如何,我只知道现在是站在新的工业革命的起点,既然分享、专注、全局观,能
四年来,荣耀与小米三度缠斗,已颇有一番沧桑。
这些谋变者注定承担压力。超越父辈是很多二代终身要去跨越的山头。解读:谷歌AlphaGo到底是如何下棋 有哪些被隐藏起来的弱点
来源: 编辑:中商情报网
这篇分析中,企鹅智酷将结合AlphaGo相关权威论文中提供的信息,以及这两场比赛中李世石与AlphaGo表现,来用更简洁的方式,告诉你谷歌AlphaGo到底如何下棋,以及它有哪些被隐藏起来的弱点。
先说核心结论:
1,作为战胜了人类围棋冠军的人工智能,AlphaGo(目前版本)强在小范围战斗,弱点在于对全局的判断;
2,AlphaGo并非没有“情绪”。它也会怀疑自己,只是用另一种形式呈现(不是人类的抖手或者挠头发);
3,是谁在训练AlphaGo?是它自己。用一种远超人类效率的方式学习;
4,李世石如何赢?和很多围棋专家分析的一样,从科技角度看,李世石必须在开局阶段建立优势,并且最好能够更频繁转移战场范围;
5,未来,AlphaGo会将人类棋手远远甩在身后。它就只能继续和自己玩了。
一、AlphaGo是如何决定下每一步棋的?
企鹅智酷没有能够真的打开AlphaGo代码库,去检查它全面的运行逻辑。我们只能从已公开的权威论文中,来梳理这个迄今为止走进公众视野的最强大人工智能,是如何做出决策,战胜人类的。
简单说,AlphaGo下的每一步棋,都依赖于“概率”。
1,当一开始,棋盘有大量空白区域,棋子较少时,AlphaGo会更愿意采用“固定策略”。
这种策略来自于AlphaGo自己模拟训练的数百万场棋局(每一局都从开始模拟到结束)。这让AlphaGo心中有一个大概的最佳选择可能性,即下在点A和点B,哪个更好些。
在这个时候,AlphaGo是通过经验来判断的。虽然这个经验不来自于人类,而是来自于它结合人类下棋方式学习后,自己和自己对弈的数百万经验值。但这种基于经验的判断,是人类挑战它的最佳机会——和“恐怖”的机器推演能力相比,经验,起码离人类更近一些。
为什么AlphaGo不在一开始就用蒙特卡罗算法,尽量穷尽所有可能性,去给出更可靠的“计算答案”,而不是“经验答案”呢?
我们猜测,一方面是当棋局尚未真正交锋时,各种选择的概率差不多,没必要做精确计算;另一方面,也为了节省时间。
2,当棋局有局部拼杀时,AlphaGo的战力就升级了。
这时候,再依赖那数百万局“自己与自己下棋”的经验,明显是不够的。因为棋局瞬息万变,李世石的下法,很可能是AlphaGo没有模拟过的(不要高估数百万局训练,和围棋的可能性相比,只是沧海一粟)。
这时候,AlphaGo会不再聚焦于整个棋盘,而将计算精力缩到一个小范围(战斗区域,例如右下角5*5,8*8这种)。这时候,它会启动现场演算推理功能,即开始计算每一个落子位置的后续走势,来计算最佳一步。
这需要时间。所以,AlphaGo在短兵相接时,不得不缩小观察范围,在局部启动现场计算。这虽然失去了一定的“大局观”,但换来了计算的效率,和比,人脑的纯粹计算力是相对弱势的,所以,短兵相接,机器占大优势。
3,当局势需要兼顾大局和计算力时,AlphaGo怎么办?
开局布局,AlphaGo用经验;短兵相接,AlphaGo用计算力。那么在局势复杂时,AlphaGo的另一个特长就有用武之地了——兼顾大局观和计算能力。
它叫做“棋局评估器(PositionEvaluator)”。这个东西会告诉AlphaGo,哪些地方是“不值得”你去深度计算的。这就帮助AlphaGo节省大量的计算需求,只针对局面上有价值的点,来推演,并给出最终的优胜概率排序。所以,这个评估器也叫作“价值网络”。
这东西是怎么实现的呢?也是经验。AlphaGo模拟了两个“自己”,然后随机落子计算每个位置对赢棋的价值。这种简单粗暴的计算是人类大脑无法训练的,只有机器可以肆无忌惮的这么做。
打个形式上的比喻。如果你用过扫地就知道,启动后,它并非按照人类的方式,一块地砖接一块的扫地,而是以一种乱序的方式,在房间里横冲直撞。
你以为它疯了。但只要你关上门,过一会,你会发现它已经把地打扫干净了——所有的区域,都被这种随机方式覆盖到。
人类是不可能这么扫地。会累死你。
但和穷尽推演相比(虽然目前不可实现),这种价值估算并不是完全准确的(扫地和围棋在精读与复杂度上,是完全不同的)。它是在兼顾时间和效率基础上,一种最适合的策略。这也是AlphaGo的一个弱点。
中商情报网版权及免责声明:
1、凡本网注明 “来源:***(非中商情报网)” 的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
2、如因作品内容、版权和其它问题需要同本网联系的,请在30日内进行。
3、征稿:中商情报网面向全国征集创业、财经、产业等原创稿件,并为创业者创业项目、产品、人物提供免费报道!中商创业交流QQ群:<font color="#ff163&&
相关事宜请联系:4 邮箱:
大家都爱看
中商情报网讯,蓝海华腾新股中签号将于3月14日晚间公布。
......
中商情报网讯,3月1日,证监会按法定程序核准了8家企业的......
中商情报网讯,新股蓝海华腾3月13日晚间公布新股中签率。
......
棕榈园林收购乐客VR4%股权拟10转15
14日早间,棕......
《美人鱼》电影海报
周一大盘环比下跌近三分之二,......
《美人鱼》电影海报
周六大盘环比大涨超七成,疯狂......
早在去年,苹果4英寸iPhone的传闻就已经沸沸扬扬了。终于,在上周......
美国《消费者报告》评选从性能、质量、满意度和安全方面进行评分......
日全国生猪价格行情今日猪价走势分析
日全国各地玉米价格最新行情趋势汇总程序原理/alphago[人工智能程序]
深度学习阿尔法围棋阿尔法围棋(AlphaGo)是一款人工智能程序。其主要工作原理是“深度学习”。“深度学习”是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取权重,再产生另一个数据集合作为输出。这就像生物神经大脑的工作机理一样,通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理,就像人们识别物体标注图片一样。
阿尔法围棋用到了很多新技术,如神经网络、深度学习、蒙特卡洛树搜索法等,使其实力有了实质性飞跃。美国脸书公司“黑暗森林”围棋软件的开发者田渊栋在网上发表分析文章说:“‘阿尔法围棋’这个系统主要由几个部分组成:一、走棋网络(Policy&Network),给定当前局面,预测/采样下一步的走棋;二、快速走子(Fast&rollout),目标和走棋网络一样,但在适当牺牲走棋质量的条件下,速度要比走棋网络快1000倍;三、估值网络(Value&Network),给定当前局面,估计是白胜还是黑胜;四、蒙特卡洛树搜索(Monte&Carlo&Tree&Search),把以上这三个部分连起来,形成一个完整的系统。” 两个大脑
阿尔法围棋(AlphaGo)是通过两个不同神经网络“大脑”合作来改进下棋。这些大脑是多层神经网络跟那些Google图片搜索引擎识别图片在结构上是相似的。它们从多层启发式二维过滤器开始,去处理围棋棋盘的定位,就像图片分类器网络处理图片一样。经过过滤,13&个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和逻辑推理。
这些网络通过反复训练来检查结果,再去校对调整参数,去让下次执行更好。这个处理器有大量的随机性元素,所以人们是不可能精确知道网络是如何“思考”的,但更多的训练后能让它进化到更好。
第一大脑:落子选择器&(Move&Picker)
阿尔法围棋(AlphaGo)的第一个网络大脑是“监督学习的策略网络(Policy&Network)”&,观察棋盘布局企图找到最佳的下一步。事实上,它预测每一个合法下一步的最佳概率,那么最前面猜测的就是那个概率最高的。这可以理解成“落子选择器”。
第二大脑:棋局评估器&(Position&Evaluator)
阿尔法围棋(AlphaGo)的第二个大脑相对于落子选择器是回答另一个问题。不是去猜测具体下一步,它预测每一个棋手赢棋的可能,再给定棋子位置情况下。这“局面评估器”就是“价值网络(Value&Network)”,通过整体局面判断来辅助落子选择器。这个判断仅仅是大概的,但对于阅读速度提高很有帮助。通过分类潜在的未来局面的“好”与“坏”,AlphaGo能够决定是否通过特殊变种去深入阅读。如果局面评估器说这个特殊变种不行,那么AI就跳过阅读。
主要成绩/alphago[人工智能程序]
对战机器人
研究者让“阿尔法围棋”和其他的围棋人工智能机器人进行了较量,在总计495局中只输了一局,胜率是99.8%。它甚至尝试了让4子对阵CrazyStone、Zen和Pachi三个先进的人工智能机器人,胜率分别是77%、86%和99%。
日,国际顶尖期刊《》封面文章报道,谷歌研究者开发的名为“阿尔法围棋”(Alpha&Go)的人工智能机器人,在没有任何让子的情况下,以5:0完胜欧洲围棋冠军、职业二段选手樊麾。在围棋人工智能领域,实现了一次史无前例的突破。计算机程序能在不让子的情况下,在完整的围棋竞技中击败专业选手,这是第一次。
日到15日,阿尔法围棋程序挑战世界围棋冠军李世石的围棋人机大战五番棋在韩国首尔举行。比赛采用中国围棋规则,奖金是由Google提供的100万美元。最终阿尔法围棋以4比1的总比分取得了胜利。
日晚起到日晚,阿尔法围棋在弈城围棋网和野狐围棋网以“大师”(Master)为注册名,依次对战数十位人类顶尖高手,取得60胜0负的辉煌战绩。
日,柯洁执黑迎战谷歌AlphaGo,最终柯洁在收官阶段不敌AlphaGo,第一局以失败告终。 赛后,AlphaGo被中国围棋协会授予职业围棋九段称号。 围棋等级分
日,世界职业围棋排名网站GoRatings公布最新世界排名,谷歌旗下DeepMind的人工智能系统AlphaGo以3612分,超越3608分的柯洁成为新的世界第一。 机器遇见机器
日,AlphaGo配对赛开战。对战双方为古力/AlphaGo组合和连笑/AlphaGo组合。比赛从上午8点半开始,最终古力举牌中盘认输,连笑/AlphaGo逆转形势获得胜利,古力组的AlphaGo曾举牌表示认输。 经过短短3天的自我训练,AlphaGo&Zero就强势打败了此前战胜李世石的旧版AlphaGo,战绩是100:0的。经过40天的自我训练,AlphaGo&Zero又打败了AlphaGo&Master版本。“Master”曾击败过世界顶尖的围棋选手,甚至包括世界排名第一的。
设计团队/alphago[人工智能程序]
阿尔法围棋戴密斯·哈萨比斯(Demis&Hassabis),人工智能企业家,DeepMindTechnologies公司创始人。4岁开始下国际象棋,8岁自学编程,13岁获得国际象棋大师称号。17岁进入剑桥大学攻读计算机科学专业。在大学里,他开始学习围棋。2005年进入伦敦大学学院攻读神经科学博士,选择大脑中的海马体作为研究对象。两年后,他证明了5位因为海马体受伤而患上健忘症的病人,在畅想未来时也会面临障碍,并凭这项研究入选《科学》杂志的“年度突破奖”。2011年创办DeepMind&Technologies公司,以“解决智能”为公司的终极目标。
大卫·席尔瓦&(David&Silver),剑桥大学计算机科学学士、硕士,加拿大阿尔伯塔大学计算机科学博士,伦敦大学学院讲师,Google&DeepMind研究员。除上述人员之外,阿尔法围棋设计团队核心人员还有黄士杰(Aja&Huang)、施恩·莱格(Shane&Legg)和穆斯塔法·苏莱曼(Mustafa&Suleyman)等。
发展方向/alphago[人工智能程序]
谷歌Deep&mind首席执行官(CEO)宣布“要将阿尔法围棋(AlphaGo)和、等进行结合”。因为它是人工智能,会自己学习,只要给它资料就可以移植。为实现该计划,哈萨比斯2016年初在英国的初创公司“”投资了2500万美元。巴比伦正在开发医生或患者说出症状后,在互联网上搜索医疗信息、寻找诊断和处方的人工智能APP(应用程序)。如果(AlphaGo)和“巴比伦”结合,诊断的准确度将得到划时代性提高 。2017年5月,以3:0的比分赢下中国棋手柯洁后,AlphaGo宣布退役,但DeepMind公司并没有停下研究的脚步。伦敦当地时间10月18日,DeepMind团队公布了最强版AlphaGo&,代号AlphaGo&Zero。它的独门秘籍,是“自学成才”。而且是从一张白纸开始,零基础学习,在短短3天内,成为顶级高手。对于希望利用人工智能推动人类社会进步为使命的DeepMind来说,围棋并不是AlphaGo的终极奥义,他们的目标始终是要利用AlphaGo打造通用的、探索宇宙的终极工具。AlphaGo&Zero的提升,让DeepMind看到了利用人工智能技术改变人类命运的突破。他们目前正积极与英国医疗机构和电力能源部门合作,提高看病效率和能源效率。
进化升级/alphago[人工智能程序]
AlphaGo Zero强化学习下的自我对弈AlphaGo此前的版本,结合了数百万人类围棋专家的棋谱,以及强化学习的监督学习进行了自我训练。在战胜人类围棋职业高手之前,它经过了好几个月的训练,依靠的是多台机器和48个TPU(谷歌专为加速深层神经网络运算能力而研发的芯片)。AlphaGo&Zero的能力则在这个基础上有了质的提升。最大的区别是,它不再需要人类数据。也就是说,它一开始就没有接触过人类棋谱。研发团队只是让它自由随意地在棋盘上下棋,然后进行自我博弈。值得一提的是,AlphaGo&Zero还非常“低碳”,只用到了一台机器和4个TPU,极大地节省了资源。AlphaGo&Zero使用新的强化学习方法,让自己变成了老师。系统一开始甚至并不知道什么是,只是从单一神经网络开始,通过神经网络强大的搜索算法,进行了自我对弈。随着自我的增加,神经网络逐渐调整,提升预测下一步的能力,最终赢得比赛。更为厉害的是,随着训练的深入,DeepMind团队发现,AlphaGo&Zero还独立发现了游戏规则,并走出了新策略,为围棋这项古老游戏带来了新的见解。
社会评论/alphago[人工智能程序]
中国围棋职业九段棋手聂卫平:Master(即阿尔法围棋)技术全面,从来不犯错,这一点是其最大的优势,人类要打败它的话,必须在前半盘领先,然后中盘和官子阶段也不容出错,这样固然很难,但客观上也促进了人类棋手在围棋技术上的提高。
复旦大学计算机科学技术学院教授、博士生导师危辉:人机大战对于人工智能的发展意义很有限。解决了围棋问题,并不代表类似技术可以解决其他问题,自然语言理解、图像理解、推理、决策等问题依然存在,人工智能的进步被夸大了。
&|&相关影像
互动百科的词条(含所附图片)系由网友上传,如果涉嫌侵权,请与客服联系,我们将按照法律之相关规定及时进行处理。未经许可,禁止商业网站等复制、抓取本站内容;合理使用者,请注明来源于www.baike.com。
登录后使用互动百科的服务,将会得到个性化的提示和帮助,还有机会和专业认证智愿者沟通。
此词条还可添加&
编辑次数:8次
参与编辑人数:4位
最近更新时间: 10:32:37
贡献光荣榜
扫码下载APP对文章打分
Google宣布AlphaGo最新版本 能在三天击败去年战胜李世石的软件
阅读 (34984) 评论 (28)
阅读 (28758) 评论 (6)
阅读 (24607) 评论 (7)
阅读 (46116) 评论 (4)
阅读 (46052) 评论 (0)
阅读 (39351) 评论 (0)
Advertisment ad adsense googles cpro.baidu.com

我要回帖

更多关于 主持人宣布比赛结果 的文章

 

随机推荐