睿鴻光電科技

人工智能AlphaGo是什么原理

  作为一种人工智能的 AlphaGo,和 IBM 在上个世纪打败国际象棋大师卡斯帕罗夫的深蓝超级计算机,以及当代的苹果 Siri、Google Now 有着显著的区别。

  它背后是一套神经网络系统,由 Google 2014 年收购的英国人工智能公司 DeepMind 开发。这个系统和深蓝不同,不是一台超级计算机,而是一个由许多个数据中心作为节点相连,每个节点内有着多台超级计算机的神经网络系统。就像人脑,是由 50-100 亿个神经元所组成的,这也是为什么这种机器学习架构被称为神经网络。

  你可以将 AlphaGo 理解为《超验骇客》(Transcendence) 里约翰尼·德普饰演的人工智能,而它所控制的超级计算机,就像影片里被人工智能心控的人类一样,共同为一种蜂群思维 (Hive Mind) 服务。《超验骇客》中,被人工智能控制的工人马丁。马丁没有所想,但他的所见将会被人工智能直接获取

  AlphaGo 是在这个神经网络系统上,专为下围棋 (Go) 而开发出的一个实例。然而,虽然名字已经介绍了它的功能,AlphaGo 背后的神经网络系统却适合用于任何智力竞技类项目。

  这个系统的基础名叫卷积神经网络 (Convolutional Neural Network, CNN) ,这是一种过去在大型图像处理上有着优秀表现的神经网络,经常被用于人工智能图像识别,比如 Google 的图片搜索、百度的识图功能都对卷积神经网络有所运用。这也解释了为什么 AlphaGo 是基于卷积神经网络的,毕竟围棋里胜利的原理是:

  AlphaGo 暗地里的零碎还鉴戒了一种名为深度强化进修 (Deep Q-Learning, DQN) 的技术。强化进修的灵感来历于生理学中的行动主义实际,即有机体如安正在情况赐与的处分或者惩办的安慰下,渐渐构成对于安慰的预期,发生能得到最大好处的风不雅性行动。不但如斯,AlphaGo 鉴戒了蒙特卡洛树搜寻算法 (Monte Carlo Tree Search) ,正在断定以后场合排场的服从函数 (value function) 和决议下一步的计谋函数 (policy function) 上有着很是好的表示,远超越上一个可能和人类棋手半斤八两的围棋顺序。

  AlphaGo 所采纳的 DQN 是一种具备遍及顺应性的强化进修模子,说白了便是不必改动代码,你让它下围棋它能下围棋,你让它正在红白机上玩超等玛丽和太空侵犯者,它也不会手生。作为一个基于卷积神经收集、采纳了强化进修模子的野生智能,AlphaGo 的进修本领很强,每一每一新上手一个名目,玩上多少局就可以得到比天下上最锋利的选手还强的气力。

  2014 年,曾经被 谷歌 收买的 DeepMind,用五款雅达利 (Atari) 游戏 Pong、打砖块、太空侵犯者、海底救人、Beam Rider 分开测试了本人开辟的野生智能的机能,成果看见:正在两三般游戏后,神经收集的操控本领曾经远超天下上任何一名已经知的游戏妙手。

  DeepMind 用一样的一套野生智能,不调解代码就去测试各类百般的智力竞技名目,取患了优秀的战绩,足以证实本日坐正在李世石背后的 AlphaGo ,领有多强的进修本领。

  在此之前,DeepMind 进行过的无数虚拟棋局训练,以及去年击败欧洲围棋冠军樊麾二段的经验让 AlphaGo 已经训练出了顶尖的弈技,极有可能高于世界上任何已知的围棋高手。

  尽管棋盘上风云变化,早在本次开战前,AlphaGo 跟李世石就已不在同一起跑线上了。至于李世石曾经做出 AlphaGo 和自己棋份在二子和让先之间的评论,恐怕第一局足够让他反悔了。

  AlphaGo 只是 DeepMind 证明自己的一个工具。你也可以将这次和李世石的对局理解为 Google 的公关策略。

  将机器学习和神经科学进行结合,打造出一种“一般用途的学习算法”。通过这种算法,DeepMind 和 Google 希望能够将智能“定型化”,理解智能是什么,进而更好的帮助人类理解大脑。

  在 Google 收购 DeepMind 前,收购条款中的一项就是 Google 必须成立人工智能道德委员会。因此,在目前阶段人们不必担心这样的人工智能最终杀死或统治人类。但至少,人工智能在围棋这样的智力类竞技项目上击败人类,是已经注定的事情。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。