据外媒报道,英国DeepMind团队的人工智能研究取得了新进展:他们开发出了新一代的围棋AI-ALphaGo Zero。使用了强化学习技术的ALphaGo Zero,棋力大幅度增长,可轻松击败曾经战胜柯洁、李世石的ALphaGo。下面就随网络通信小编一起来了解一下相关内容吧。
战胜柯洁之后,ALphaGo可以说在围棋界里已是“独孤求败”的境界了,几乎没有人类是它的对手。但是这并不代表ALphaGo就已经对围棋领域的认知达到了顶峰。因此,ALphaGo想要再上一层楼追求围棋知识的上限,显然只有它自己能成为自己的老师。
而在过去,AlphaGo都是使用业余和专业人类棋手的对局数据来进行训练。虽然使用人类棋手的数据可以让ALphaGo学习到人类的围棋技巧,但是人类专家的数据通常难以获得且很昂贵,加上人类并不是机器,难免会出现失误情况,失误产生的数据则可能降低ALphaGo的棋力。因此,ALphaGo Zero采用了强化学习技术,从随即对局开始,不依靠任何人类专家的对局数据或者人工监管,而是让其通过自我对弈来提升棋艺。
那么到底什么是强化学习技术呢?简单地说,强化学习就是让AI从中学习到能够获得最大回报的策略。AlphaGo Zero的强化学习主要包含两个部分,蒙特卡洛树搜索算法与神经网络算法。在这两种算法中,神经网络算法可根据当前棋面形势给出落子方案,以及预测当前形势下哪一方的赢面较大;蒙特卡洛树搜索算法则可以看成是一个对于当前落子步法的评价和改进工具,它能够模拟出AlphaGo Zero将棋子落在哪些地方可以获得更高的胜率。假如AlphaGoZero的神经网络算法计算出的落子方案与蒙特卡洛树搜索算法输出的结果越接近,则胜率越大,即回报越高。因此,每落一颗子,AlphaGo Zero都要优化神经网络算法中的参数,使其计算出的落子方案更接近蒙特卡洛树搜索算法的结果,同时尽量减少胜者预测的偏差。
AlphaGo Zero的自我强化学习,图片源自Nature
刚开始,AlphaGoZero的神经网络完全不懂围棋,只能盲目落子。但经历无数盘“左右互搏”般的对局后,AlphaGo Zero终于从从围棋菜鸟成长为了棋神般的存在。
DeepMind团队表示,他们发现AlphaGo Zero自我对弈仅几十天,就掌握了人类几百年来来研究出来的围棋技术。由于整个对弈过程没有采用人类的数据,因此ALphaGo Zero的棋路独特,不再拘泥于人类现有的围棋理论,
DeepMind团队还表示,这个项目不仅仅是为了获得对围棋更深的认识,AlphaGoZero向人们展示了即使不用人类的数据,人工智能也能够取得进步。最终这些技术进展应该被用于解决现实问题,如蛋白质折叠或者新材料设计。这将会增进人类的认知,从而改善每个人的生活。
以上是关于网络通信中-ALphaGo再进化,新一代ALphaGo Zero诞生的相关介绍,如果想要了解更多相关信息,请多多关注eeworld,eeworld电子工程将给大家提供更全、更详细、更新的资讯信息。
上一篇:人工智能领域“新动向”早知道
下一篇:无人机加持5G 华为携中移动加速低空应用
推荐阅读最新更新时间:2024-05-07 17:40
- 【Silicon Labs BG22-EK4108A 蓝牙开发评测】三:蓝牙之SoC - Blinky代码函数与框架
- HT48 MCU对HT1621 LCD控制器的使用
- 千兆网电口不通是什么原因?
- 430也能玩嵌入式:Contiki内核在IAR+MSP430下移植(六)
- 低谐波LED驱动电源过3C认证G13灯头小体积堵头
- 功率放大器在面向骨质损伤辅助治疗的柔性压电超声换能器研究中的应用
- 电源关断用PMOS求推荐
- 我的冰棒啊~~有人做俯卧撑了~~~
- LSM6DS3TR-C 单双击同时使用如何配置
- wdk编译出错LNK2019:unresolved external symbol _DriverEntry@8 referenced in function