Open AI 最新研究:AI 真的会失控,太执着得分,不停

B彩生活 689浏览 74评论 来源:申博官网备用网址_金沙6119

Open AI 最新研究:AI 真的会失控,太执着得分,不停

AI  研究是一个纯净的世界,最棒的理念并不是靠下一个产品循环或者利润驱动的 ——至少不完全由它们驱动。研究人员想让  AI 更好,如果拒绝分享最新的研究成果, AI 就不可能变得更好。

DOTA2 的比赛让 OpenAI 火了一把。对于 Open AI,我们知道它是一家非盈利的,要用开放的方法研究通用人工智能,为人类带来福祉的研究机构。我们可能还知道,Elon Musk 是这家机构的最大股东之一,目前他们已经募集到了 10 亿美元的融资。但是,你可能不知道的是,怀着崇高理想的 Open AI 和马斯克正饱受质疑:从人才流动到业务模式,再到发展前景。Open AI 的初衷真的是为了更安全的 AI 吗? 它是不是成为了马斯克或者其他利益集团的人才「后花园」?

今年的 DOTA2 经典赛事 TI7 国际邀请赛让 Open AI 大火了一把: 他们研发的 Self-Play 机器人在 Dota2 1v1 比赛中战胜了人类顶级职业玩家 Dendi,在这场顶尖的电竞比赛中大放异彩。

提到 Open AI,一般都会称「马斯克的 Open AI」。作为 Open AI 的最大投资人之一,马斯克也在 Twitter 上盛赞团队在这次与人类玩家对决的 DOTA 2 比赛中的英勇表现。

Open AI 最新研究:AI 真的会失控,太执着得分,不停

Elon Musk 发表推文称赞 OpenAI 的战绩,并其为「在电子竞技领域首个击败人类顶级玩家的机器人」。

这场比赛结束之后,AI 界讨论的一个焦点是:OpenAI 的 bot 究竟有没有连接 Dota 的 bot API? 因为如果连接了的话,那幺它就能直接获得游戏中的实时信息,比如,不同角色之间的地理距离(以决定攻击或者逃逸)。后来,Open AI 的 Greg Brockman 证实,他们确实使用了 Bota 的 bot API,并且,某些技巧是他们自己手写代码,以硬编程的方式写进 agent 中的。虽然他们确实也使用了一些试错的技术,比如强化学习。 总体而言,Open AI 这次出战 Dota 2 的机器人确实是有少量人为「指导」的。

巴斯大学游戏 AI 研究员、经验丰富的 Dota 玩家 Andreas Theodorou 解释了为什幺这会带来不同结果。「Dota 的一个关键就是你需要计算距离才能知道一些『攻击』的里程」,他说,「API 让机器人能对範围长短获得暗示。所以你可以说:「如果有人在 500 米範围内,就攻击吧,」但人类玩家必须自己计算,通过试错来学习。如果机器人能够获得人类玩家没有的信息,那幺就真的会给它们一个优势。「在一个 1v1 比赛中,对抗一个像 Shadow Fiend 这样的英雄,这一效果尤为显着。玩家必须专注于在正确的时机展开攻击,而不是总体战略。

在当天接下来的比赛中,Open AI 的机器人被人类玩家击败了 50 次,但是这个时候,关心这一人机对抗的人已经不多了。

外界认为,虽然 Dota2 等游戏确实比围棋的複杂得多,需要的技巧和能力也更多。但是 Open AI 的机器人对人类玩家的这一场胜利意义远远比不上 DeepMind AlphaGo 战胜人类围棋专业棋手。

在技术方向和目标上,DeepMind 和 Open AI 有着巨大的相似性:目前都专注于对强化学习(reinforce learning),目标都是开发出具有人类能力的通用人工智能 ,而他们目前训练和研究人工智能的主要环境也都是游戏。

蒙特利尔会议:Open AI 诞生记

2015 年 12 月一个週五的下午,特斯拉创始人 Musk 和 Y Combinator 总裁 Sam Altman 宣布成立新的人工智能(AI)公司 Open AI,当时他们正在参加 Montreal AI 会议,当会议进入尾声时他们宣布了该消息。

OpenAI 现在拥有 60 名全职研究员和工程师。OpenAI 关注长期研究,会在顶尖的机器学习会议上发布论文、开源了一系列加速 AI 研究的软件工具,他们还会公布研究博客,以促进研究交流。

Open AI 的主要业务有两个:机器人、複杂的计算机游戏和大量的计算机游戏 。机器人方面,聚焦于机器人操作,机器人的研究主要涉及三个层面,移动(locomotion)、导航(navigation)和操作 。

从研究上说,OpenAI 主要做的是基础研究,关注技术长期的发展,最有代表性的是强化学习(Reinforce)。 

关于 OpenAI,有两个比较重大的事实:最大的投资人是马斯克和 Sam Altman。截止 2017 年 5 月 17 日,总共融资额已经超过 10 亿美元。

除马斯克外,Open AI 的创始人还有:Sam Altman(Y Combinator 总裁)、Breg Brockman(OpenAI CTO)、Reid Hoffman(LinkedIn 联合创始人)、Jessica Livingston(Y Combinator 创始合伙人)、Peter THiel(PayPal 的共同创建者)和 Wojciech Zaremba(机器人专家)。

Sam Altman  曾被《商业週刊》评为最优秀的年轻企业家,他是位置服务提供商 Loopt 的联合创始人和 CEO,该公司于 2012 年 3 月被预付借记卡业务公司 Green Dot 收购。2014 年 2 月,Sam Altman 接替 Paul Graham,成为 YC 的新掌门人。

Breg Brockman 前 StripeCTO,现 OpenAI CTO。

Reid Hoffman 为 LinkedIn 联合创始人,曾经担任过 PayPal 高级副总裁。是硅谷最有名的天使投资者之一,曾经投资过 60 多家创业公司,包括 Facebook 和 Digg。

Jessica Livingston 则是 Y Combinator 创始合伙人。

Peter THiel 对冲基金管理者,PayPal 的共同创建者之一,也是 Palantir 的共同创建者和对冲基金 Clarium Capital 的总裁,以及畅销书《Zero to One》的作者。

用理想与情怀广纳人才

据内部人士透露,Open AI 给的薪酬并不高,但它能提供其它的激励: 不用关心产品和季度盈利,可以专心探索面向未来的研究,最终与所有人分享大多的研究成果 。开放一词可以视为 Open AI 的核心宗旨,也是其名字的来源。

Open AI CTO Greg Brockman 曾对 Wired 透露,实验室支付的工资没有 Google、Facebook 等企业给的多。Brockman 还说 Open AI 不想给他们太多工资,它会用股票期权来补偿研究人员,最开始会用 Y Combinator 股票,未来可能会用 SpaceX 的股票。 但是 SpaceX 和特斯拉不同,它现在还是一家私营企业。

Wojciech Zaremba 是波兰人,专业是机器人。曾在 Google Brain 工作一年,在 Facebook AI  研究院工作一年,博士毕业于《纽约大学》,后加入 Open AI。

Zaremba 加入 Open AI 后,Google 和 Facebook 都曾开出天价来挖他。但是,他在一次採访中表示,正是「疯狂的开价」让他掉转了方向,虽然他很尊重 Google 、Facebook 等企业,但 他认为一些企业之所以开出高价格抢人,主要是想阻止 Open AI 成立,守护他们自己的业务 ,这种认识使萨林巴更加推崇 OpenAI 的宏大使命。萨林巴称:「我意识到 Open AI 是最佳工作地点。」

Open AI 成立后,其崇高的目标和理想的研究环境迅速吸引了一大批实力不俗的 AI 研究院,其中包括 Ian GoodFellow(GAN 理论的集大成者、后加入 Google Brain)、Andrej Kapathy(后加入特斯拉)和 Ilya Sutskever  等。

Ilya Sutskever 师从 Hinton,是吴恩达的斯坦福研究小组博士后,Google Brain 顶级研究者,加拿大史上第一位 Google Fellow,DNN Research 创始人……Ilya Sutskever 在 AI 研究领域可谓「根正苗红」,成绩显赫。目前,他的身份是 OpenAI 研究主管。 

Open AI 最新研究:AI 真的会失控,太执着得分,不停Open AI 的第一个正式办公室

崇高的理想:用开源对抗巨头垄断技术

Open AI 从成立起就标榜要对抗 Google、Facebook 等巨头的「技术垄断」,以开放、开源的方式进行研究。

OpenAI 的研究员们认为,AI 研究是一个纯净的世界,最棒的理念并不是靠下一个产品循环或者利润驱动的——至少不完全由它们驱动。研究人员想让 AI 更好,如果拒绝分享最新的研究成果,AI 就不可能变得更好。

在 OpenAI 刚成立时,Altman 在接受媒体採访时被问及:Google 也在不断进行开源,你们的开源与他们有什幺不一样?他回答说,Google 的确与公众分享了许多研究成果。随着时间过去,随着我们逐渐接近那种超越人类智能的东西,Google 还会与公众分享多少成果是值得怀疑的。

Altman 表示,OpenAI 中研究的东西最终是会超越人类智能的。最重要的是,它会是开源的,任何人都能使用,而不是只能被,比如说 Google 来使用 。这个团体研发的任何东西都将对所有人开放。如果你拿去以后做了一些改变、让它适应其他用途,你也不会有义务要和公众分享你的成果。但是只要是我们做的任何工作,都会对所有人开放。

现在大企业分享的 AI 研究成果更多了。这是一大改变,Google 的改变尤其巨大,以前它喜欢将技术秘密禁锢在庞大的线上帝国内,近年来在机器学习上也进行了广泛的开源,比如,TensorFlow。不过,外界评论认为,儘管如此,为了佔据未来制高点,Google 的核心技术仍然是保密的。 马斯克等人的目标是将开放理念向前推进一步,他们不愿意一家或者两家企业控制未来的 AI。

2016 年 4 月 28 日,OpenAI 对外发布了人工智能开发平台 Gym。Gym 平台的基本理念是,研究者建立自己的算法后,可以把该算法置于不同的环境中进行测试,然后把测试后的基本算法发布在 Gym 的平台上,让社区中的其他人看到。该平台现在已经与一些开放资源人工智能工具,例如 Google 的 TensorFlow 展开合作。

OpenAI 的开源继续进行,2016 年 12 月发布 OpenAI Universe。 根据其官方博客的介绍,这是一个能在几乎所有环境中衡量和训练 AI 通用智能水平的开源平台 ,当下的目标是让 AI 智能体能像人一样使用计算机。目前,Universe 已经有 1000 种训练环境,由微软、英伟达等公司参与建设。

Universe 通过一个通用的接口适用于各种场景:智能体通过捕捉屏幕的像素生成对键盘和鼠标的命令来操作远程桌面。场景需要 VNC 服务器,universe 库将智能体转换为 VNC 客户端。

Open AI 最新研究:AI 真的会失控,太执着得分,不停

Universe 的设计目标是支持单个的 Python 进程,以每秒 60 帧的速度并行驱动 20 个场景。每个屏幕的缓冲区是 1024×768,因此用外部进程直接读取每一帧需要 3GB/s 的内存带宽。他们用 Go 写了一个面向批处理的 VNC 服务器,它可以作为 Python 共享库加载,并且逐步更新每个场景的一对缓冲区。在尝试了许多 VNC 服务器、编码器和无证书协议选项的组合之后,现在的组合能以 60 帧/秒的速度驱动几十个场景,延迟是 100 毫秒——这些延迟几乎都是服务器端编码引起的。

Gym 和 Universe 的开源是 OpenAI 迄今为止较为代表性的两个作品。不过也有人提出疑问,没有数据开源,OpenAI 所谓的开放大业能否完整?

Open AI 最新研究:AI 真的会失控,太执着得分,不停

OpenAI 的同行: DeepMind

这个世界上,如果要找一家与 OpenAI 类似的机构,那肯定是 DeepMind 了。

Open AI 最新研究:AI 真的会失控,太执着得分,不停

DeepMind 被普遍认为是人工智能研究前沿的代表企业,他们研发的围棋程序 AlphaGo 也被认为是具有划时代意义的。

值得一提的是,马斯克正是这家公司的天使投资人之一。此前在有记者问马斯克,为什幺在投资了 DeepMind 之后又创建 OpenAI,他的回答是:「我得强调,我并不是通常意义的投资者。我不寻求投资和财务上的回报。我给自己参与创立的公司投资,有时候是出于帮助朋友,有时候是因为我的信仰,也有的时候是因为我关心的事情。 我并不是出于分散风险或者物质意义上的考虑。 我对 DeepMind 所谓的投资,不过是为了更好的理解人工智能,并且能够时刻看到它的进展 」。

来看看 DeepMind 在游戏上的开源,2016 年 12 月,DeepMind 在官方网站上宣布开源智能体研究平台 DeepMind Lab :

DeepMind 的 DeepMind Lab 是一个专为基于智能体的 AI 研究设计的,完全像 3D 游戏般的平台 。它从自己的视角,通过模拟智能体的眼睛进行观察。场景呈现的视觉效果是科幻风格。可用的操作能让智能体环顾四周,并且以 3D 的形式移动。智能体的「身体」是一个悬浮的球体,通过激活与期望运动方向相反的推动器实现悬浮和移动,并且具有围绕其主体运动的,能够观察其旋转时动作的摄像头。示例任务包括收集水果、走迷宫、穿越危险的通道且要避免从悬崖上坠落、使用发射台在平台间穿越、玩激光笔、以及快速学习并记住随机生成的环境。

下面是智能体在 DeepMind Lab 中如何感知并与世界交互的图示:

Open AI 最新研究:AI 真的会失控,太执着得分,不停

2017 年 8 月 10 日,DeepMind 在官方博客上宣布开源星际争霸 2 研究训练平台 SC2LE。这套工具组件将加速即时策略游戏星际争霸 2 中的 AI 研究。

Open AI 最新研究:AI 真的会失控,太执着得分,不停

OpenAI 联手 DeepMind,创建可控制的人工智能

OpenAI 在做什幺?一句话,他们在努力创建安全的通用人工智能。

这里有两个关键词: 安全,通用 。

通用人工智能又称强人工智能,简单来说,就是让机器自己学习像人一样地去行动。而安全,则是 OpenAI,这个由特斯拉 CEO 伊隆·马斯克成立的人工智能实验室着重强调的一点。

比如 OpenAI 的研究人员 Dario Amodei 正在开发一个能够自己玩「赛船冠军赛」(Coast Runners)游戏的系统,这是一个挺老的赛船电子游戏。哪艘船得分最高且能划过终点,就是冠军。

Open AI 最新研究:AI 真的会失控,太执着得分,不停

然而结果却让人大吃一惊:赛船对屏幕上的绿色小物件(「吃」掉这些小物件就可以得分)太执着了。比起到达终点,AI 控制的赛船会疯狂地去捞分。这造成了无尽的循环,和其他船相撞,滑进石墙,不停地起火。

Amodei 先生燃烧的赛船正是 AI 技术危险性的完美缩影。 研究者开发出了自己进行任务学习的机器,其中最有名的就是横扫人类围棋世界的 AlphaGo。然而随着这些机器经过长时间的数据分析来进行训练,它们可能也发展出了意料之外的、人类不希望见到的、很可能有害的行为。

OpenAI 的一个重要使命,正是在发展通用 AI 的过程中,最大程度上避免这种情况的发生。

在 OpenAI,Amodei 和同事 Paul Christiano 一道,正在开发不仅能通过数小时的试错进行任务学习的算法,同时在这一过程中还能接受人类的引导。他们相信,这类算法—— 人类和机器的混合——能够保证 AI 系统是安全的 。

多年以来,Elon Musk 和其他一些专家、思想家,也包括一些技术专家,一直在警告 AI 可能脱离人类的控制,产生违背他们设计者初衷的行为。而像 Amodei 这样的研究者则在努力走在风险的前面,从某种意义上说,他们将 AI 系统看作是需要父母引导的孩子。

在 AI 领域,许多专家相信强化学习是让机器通过不断的试错学习特定任务,从而实现人工智能的途径。研究者为机器设定奖赏,机器随机开始执行任务,不断地去获得最大化奖赏。比如在赛船游戏中,奖赏就是更多的分数。

如果 AI 能够学会在游戏《横行霸道》中开一辆车,研究者们相信,AI 在真实世界中也能学会去开一辆车。如果它能够用网页浏览器和其他 app,它也能学会理解自然语言,甚至展开对话。在 Google,在 UC 柏克莱,机器人已经开始使用此类技术学习执行简单任务,比如开门、捡东西了。

这就是为什幺 Amodei 和 Christiano 正在努力开发能够接受人类指导的强化学习算法。这能够保证 AI 不失控。

最近,他们和 DeepMind 的研究者一起,发布了一些相关的研究报。这两家顶级实验室此前从未开展过合作,他们如今合作开发的算法被当作是 AI 安全性研究的重要一步。 

UC 柏克莱的研究人员 Dylan Hadfield-Menell 表示,这些联合研究验证了以前的一些想法,在未来 5 到 10 年都是非常有前景的研究。

和 OpenAI 、DeepMind 的开发团队致力于 AI 安全的研究一样,Google Brain 也在做类似的事情,还有 UC 柏克莱、史丹佛大学也在这些大企业的实验室合作,致力于此类问题的研究。

今年 6 月,OpenAI 还曾与  DeepMind 联手发布了合作计划的第一项研究,让没有技术经验的人类给强化学习系统提供反馈,从而避免事先为系统指定目标的步骤。在某些情况下,这种方法只需要 30 分钟的反馈就足以训练系统,包括教会系统一个全新的、複杂的行为,例如使模拟机器人做后空翻。

Open AI 最新研究:AI 真的会失控,太执着得分,不停大约用了 900 条来自人类的反馈来教这个算法做后空翻

质疑:Open AI 成为马斯克的 AI 人才后花园?

今年 6 月,Open AI 着名研究员 Andrej Kapathy 加盟特斯拉,但是这一消息却让马斯克饱受质疑。

Hacker News 上,有人开玩笑地评论,Andrej Kapathy 是从马斯克的一家非盈利组织(Non-profit)组织,跳槽到了马斯克的一家盈利公司(own for profit)。

Andrej Kapathy 毕业于史丹佛人工智能实验室,博士师从李飞飞教授,在 Google Brain、DeepMind 实过习,也曾与吴恩达一起共事,业界几大深度学习实验室都待过,更重要的是,他乐于而且善于分享自己的经验和见解,在推特和 Medium 上非常活跃,有 AI「网红」之称。

今年 6 月,特斯拉发布官方消息,称 Andrej Kapathy 加入特斯拉,作为新任命的 AI 及 Autopilot Vision 总监的 Karpathy 将直接向 Musk 彙报,但也会与特斯拉的 Jim Keller 紧密协作,后者曾负责特斯拉的 Autopilot 硬件部门,如今统管自动驾驶汽车司机辅助功能的软件及硬件部分。

针对此事,有网友在网上评论说,Open AI 已经成为马斯克招揽 AI 人才的「后花园」。或许是因为一贯宣扬「人工智能威胁论」,媒体对马斯克创建 Open AI 的初衷一直抱有怀疑。有媒体此前报道,在 Open AI 成立的会议上,马斯克之所以现身,主要是因为他和 Altman 私交甚笃,还因为他自己的企业经营多项业务,AI 对于这些业务来说至关重要,对于未来的世界也至关重要。自动驾驶汽车必然会到来,汽车需要 AI。SpaceX 要将人类送入太空。

一些人警告说一旦系统足够强大,可以自行学习,人类可能会失去对系统的控制权。在警告者中,马斯克的噪门算是最高的了。

Open AI 最新研究:AI 真的会失控,太执着得分,不停

在 HackNews 上,网友 unityByFreedom 说:「OpenAI 一直都是 Musk 的一个人才渠道:他使用其他人的投资来吸引人才,然后再把这些人才放到自己的公司里去。我认为,这对员工和 Musk 来说都是一件好事。我不确定 Open AI 还有多少投资者,我很想知道他们在投资的时候都在想什幺。」

对 Musk 的质疑也蔓延到了对 OpenAI 的质疑身上:

用户 randcraw 表示,OpenAI 的研究计划实际上并没有大多数人想的那幺诗情画意,因为第一,他们从未明确承诺过「改变世界」,而且第二,他们的项目最终必须为既得利益者服务。

他不喜欢 OpenAI 的长期任务计划。「保持 AI 开放」(Keeping AI open)看起来相当平淡,难以在如今这样有目的性和动态的文化气质中长存。或许这样漫无目的的蜿蜒前行的结果没有达到 AK(指 Andrej Karpathy)最初的希望。

或者,也许特斯拉能比 KITT 拿出更多的东西?马斯克的野心那幺大。我怀疑 Karpathy 被各种甜蜜的前景给迷昏了头。

还有人说,Open AI 很奇怪,他们的研究一般比其他顶级实验室的影响力更小——不是指在媒体上的影响力,虽然团队中确实有很多人才。OpenAI 迄今最重要的研究成果就是 InfoGAN,其他都没有那幺惊艳。另一方面,开源的宗旨保持得很好,OpenAI Gym/Universe 以及现有的测试模型十分出色。

此外,还有传言说,OpenAI 有工程师裁员的情况出现。不过,这与前面说的又是两码事了。

延伸阅读

到底谁不负责、谁不懂人工智慧?钢铁人和马克的嘴砲擂台正式开打
科技部 4 年 40 亿推人工智慧,产学合作留住 IC 人才,获业界看好 人工智慧将在这 4 个缺工严重国家起飞,台湾也上榜
Swift 开发者 Chris Lattner 狠甩 Tesla,转战 Google 人工智慧团队
中国 AI 教父吴恩达开课啦!史上「最完整」人工智慧课程,带你一步步成为顶尖人才

 

与本文相关的文章