ChatGPT 背后:从 0 到 1,OpenAI 的创立之路
ChatGPT 一出,OpenAI 名声大震,CEO Sam Altman也成为聚光灯下的 C 位主角,有些报道甚至开始了对他的“造神”运动。年少成名,他不到 30 岁就成为 YC 总裁,从 2019 年 GPT-3 开始,他开始主导 OpenAI 的运营事务,并取得了如今的非凡成就。
他擅长将企业发展从 1 放大到 1000,但自 OpenAI 创立到 GPT-2 的发布期间,但自 OpenAI 创立到 GPT-2 发布期间,还有更多的故事。
Greg Brockman 是将 OpenAI 从 0 到 1 拉扯到大的关键先生。他是 OpenAI 的联合创始人,从 2015 年开始,Greg 和首席科学家Ilya Sutskever主导 OpenAI 的创建,以及日常运营和研究工作。Greg 现在也是 OpenAI 的董事长和总裁(2022 年前一直担任 CTO),从企业权力结构来看,他才是 OpenAI 背后的一号人物。
Greg 有着非凡履历。2009 年,他本科毕业于哈佛大学数学与计算机科学系,2010 年在 MIT 计算机科学读博,期间维护 XVM、Linerva 和 scripts.mit.edu 等知名项目。毕业后成为互联网支付平台 Stripe 的 CTO,帮助团队实现了员工人数从 4 人到 250 人的增长,不过在公司发展蒸蒸日上之际,他选择急流勇退,继续追逐伟大的事业,由此才有了 OpenAI 的创业历程。
OpenAI 的诞生也源自一群非凡的投资人。众所周知,OpenAI 起源于 2015 年门洛帕克的一顿晚饭上,那时大佬云集,在基于“构建安全的人工智能以造福人类”的愿景下,他们决定创建一个非营利性机构,并且最终获得了包括 Greg Brockman 和 Sam Altman 在内的马斯克、Jessica Livingston(Y C 创始合伙人)、Peter Thiel(PayPal 联合创始人)、Reid Hoffman(LinkedIn 联合创始人)等企业家,以及亚马逊的 AWS 等知名企业和机构的十亿美元投资。
光有钱还不够,负责创建 OpenAI 团队的 Greg 还要找到能实现这一愿景的技术人才。ChatGPT 大火之时,知乎上有个热议问题:阻碍国内团队研究 ChatGPT 这样产品的障碍是技术、钱还是领导力?
从技术上看,ChatGPT 核心算法早就是公开的,没什么秘密,无论是互联网大厂还是融资上百亿的创业公司也不缺买算力和数据的资本。还有不少人反思说国内缺乏那种投资和创业的土壤。但最核心的是,我们缺乏 OpenAI 这样的团队以及其中极具远见和坚定信念的领导者,这些是使得一切愿景成为可能的必要条件。
通过搜寻人际网络,Greg 希望邀请一批顶级人才组建队伍。这个网络上的节点人物很是惊人,包括深度学习领域“三巨头”Geoffrey Hinton、Yann LeCun、Yoshua Bengio 等大牛,这些大牛又给他推荐了人工智能领域顶尖技术人才,包括机器人与强化学习领域大牛 Pieter Abbeel、Andrej Karpathy(后来担任了一段时间特斯拉 AI 总监后,最近又回归 OpenAI)、Ian Goodfellow(GAN 网络发明者)、Wojciech Zaremba(Yann Lecun 学生)等。当然,除了明星级人物,如果那时你参加线下会议,坐你旁边的人是 Greg,他会主动跟你交流,觉得合适也会邀请你加入 OpenAI。
Greg 认为,团队的成功需要招募到对的人。尽管 OpenAI 成立不久,但经过他和 Ilya Sutskever 的共同努力,吸引了不少业内顶级大牛加入,而这更多依靠的是对 OpenAI 使命愿景的认同,以及与聪明人一起工作的环境。
最近,ChatGPT 让国内不少精英再一次感受到落后的紧迫感,不少创业团队要打造“中国版的 OpenAI”。我们不乏真正有抱负的创业者,但想象一下,如果在 2015 年已经有一支 OpenAI 团队,Sam Altman 和 Greg Brockman 这群人很可能会去打造另一支不同于它的“DeepMind”团队,而不会称自己要去打造“硅谷版的 OpenAI”,并且是为了复现 ChatGPT。
在 Greg Brockman 主导 OpenAI 的最初两年里,2016 年 4 月,OpenAI 发布了强化学习研究平台“OpenAI Gym”的公测版,同年 12 月,发布了软件平台“Universe”,用于衡量和训练人工智能在全球游戏、网站和其他应用程序中的通用智能。
那一年,Alphago 刚刚问世,新一轮 AI 黄金时代开启。与此同时,AI 领域尚不存在大型语言模型(LLM)这个概念,刚刚成立两年的 OpenAI 也没有发布 GPT 模型,他们似乎只有模糊的想法,不过这个新组织每天都在为新技术探索而激动。
不管怎样,如果国内要打造这样一支团队,不妨听听当事者 Greg Brockman 是如何从零到一构建起一支原版的 OpenAI,从其创业旅程中一窥他的组织构建思想,他如何聚拢了一大批才华横溢的顶尖人才,这个组织的创新能量又从何而来。
(以下内容由 OneFlow 编译,转载请联系 OneFlow 获得授权。原文:https://blog.gregbrockman.com/my-path-to-openai)
作者|Greg Brockman
OneFlow 编译
翻译|徐佳渝、贾川
在高中毕业后的间隔年里,我曾认真学过编程。我读过图灵的《计算机器与智能》一书,并深受启发:代码能理解那些编写代码者所不能理解的东西。于是我准备着手写一个聊天机器人。那么写出来有多难呢?
我想创建的是能与人正常对话的机器人,但找了很久,似乎没有人能做出这种机器人。我很快便搁置了这个想法,转而专注于创建那些能真正产生影响的系统。
1、大学研究项目
读大学时,我对编程语言很感兴趣,由此便进入了 AI 的大门。编译器和静态分析器能“理解”那些我理解不了的程序,于是我便常用其来做一些非常有用的事情,比如快速生成代码并检验其是否正确。
我一直想潜下心来去做编程语言研究,却总是受到新的创业点子和新同事的影响。其实我的同事人都还不错,但这些创业想法可就不敢恭维了。无论在哈佛还是麻省理工,我都努力向那些优秀的人看齐,主动融入他们,并与之共建有用的东西。
Greg Brockman
大三那年,我发现在校创业没有意义,所以我就和那些创业者面谈,汲取经验。与此同时,我终于开始了编程语言研究之旅。我从一位教授那里获得了研究经费,并招募了一些朋友进行静态缓冲超时检测项目。
几周后,帕洛阿托(Palo Alto)一家尚未启动的初创公司联系了我。一般情况我会直接删除这种邮件,但此时我也正准备与初创公司会面,所以我们团队就立即点开了邮件,此时我也发现,他们也正是我一直在寻找的那种人。于是我离开学校,这也意味着我们的缓冲超时检测项目就此搁置了。
2、Stripe 生涯
那家公司就是现在的 Stripe。在我的帮助下,公司规模从 4 人扩大到了 250 人;在我离开后的一年里,又继续扩大到了 450 人(当然,这份功劳与我无关)。
此时公司的发展正蒸蒸日上,无论有我没我,都会继续继续做伟大的事情,所以我准备离开 Stripe。我想做的是与优秀之人同行做些有意义的事情,但开发者基础架构并不是那个我想穷尽余生之力去解决的问题。
然而,我终于还是找到了那个我想解决的问题:创造出安全的人类级别的 AI(human-level AI)。只要这项技术能真正为人类所用,我想一定会引起轰动,并给世界带来积极影响。
(Greg Brockman 与 Sam Altman)
在我最终决定离职之前,Patrick 说Sam Altman有很好的局外人视角,而且见过很多跟我情况类似的人,应该能给我一些好的建议,让我去和他谈谈。
在与 Sam 交谈五分钟后,他说:看来你是完全准备好离职了,后续事宜有什么需要我帮助的吗?
我说 AI 是我的首选(这绝对是我的人生目标),但还不确定现在是否就是做这件事的最佳时机,而且我也不知道最佳的贡献方式是什么。
他回答:我们一直在考虑通过 YC(译者注:Y Combinator,美国著名创业孵化器)建立一个 AI 实验室,你或许可以跟我们合作。
3、研究深度学习
大约在这一两周后,我就离开了 Stripe,开始着手深入研究 AI,想要更好地了解该领域正在发生的事情。仅从 Hacker News 上的帖子(例如http://karpathy.github.io/2015/05/21/rnn-effectiveness/)就可以看出:人们对 AI 尤其是对深度学习的关注度越来越高。但在进入该领域时,我仍然是持有合理怀疑的,在投身 AI 之前,我想确定一切都是可行的。
我的第一个目标是弄清楚深度学习到底是什么。然而事实证明这并非易事。例如,deeplearning.net 上只是说“深度学习是机器学习研究的一个新领域,引入深度学习的目的是使其更接近于最初的目标——人工智能”。虽然这听起来很令人兴奋,然而却并没有说清楚到底什么是深度学习。
幸运的是,我有一些从事 AI 行业的朋友:Dario Amodei(曾任 OpenAI 研究主管,现 Anthropic 创始人和 CEO)和 Chris Olah(曾任 OpenAI 技术主管,现为 Anthropic 联合创始人)。我向他们征求了一些意见,他们给了我一些很好的入门资源,其中最有用的是 Michael Nielsen 写的书。我读完后还在 Kaggle 上练习了新学到的技能(在第一次比赛时我就拿到了第一名!)。
一路走来,我不断遇到 AI 领域中那些超级聪明的人,并与我大学时最聪明的一些朋友重新建立了联系,例如现在在该领域工作的 Paul Christiano(曾任 OpenAI 研究员,现 Alignment Research Center 创始人)和 Jacob Steinhardt(加州伯克利分校助理教授)。我觉得这是一个强烈的信号。
我了解得越多,就越相信 AI 已准备好散发自己的光芒。深度学习的能力简直令人难以置信,比如,我们现在可以极其准确地对图像中的目标进行分类(2014 年的 XKCD 就已经实现),语音识别非常精准,还可以生成十分逼真的图像。不过虽然这些技术足够新,但到现在为止还没有改变人们的生活方式,它们如今的影响还仅限于支持某些产品实现特定功能。
有一位朋友曾开发过 Facebook News Feed。还记得我曾对他说过这样一句话:简单的算法,大量的数据。每个人都试图兜售很酷的新 AI 算法,但实际上只需要扩展逻辑回归(logistic regression)就会非常奏效。而他对此持怀疑态度。然后我就拿出了谷歌翻译 App,将其设置为飞行模式,并向他演示了如何直接翻译图片上的文字。他对此印象颇深,并承认简单的算法对此无济于事(这背后主要是深度学习在发挥作用,不过这不是重点,重点是它有效。)
4、创业想法诞生
Sam Altman 在 2015 年 6 月联系我,问我是否已经想好下一步该做什么了,我告诉他目前的计划是明年开一家 AI 公司。然后我们打了通电话,他提到他们正在推进 YC 的 AI 项目。我问:实验室的目的是什么?“建立安全的人类级 AI”,他说。
在那一刻我就知道,他很适合当我下一家公司的合作伙伴。现在很少有人敢于明确尝试构建人类级 AI。我意识到,有时候一项成就只需要有个胆大的人宣布目标,然后合适的人就会加入其中。
大约一个月后,Sam 在门洛帕克(Menlo Park)举办了一场晚宴,参加宴会的有 Dario、Chris、Paul、Ilya Sutskever、Elon Musk、Sam 和其他一些人。
我们讨论了 AI 领域的现状、目前离人类级 AI 还有多远以及实现人类级 AI 还需要的东西等等。整场对话围绕着“什么样的组织可以最好地确保 AI 的有益性”展开。
答案很明显:必须是非营利组织,因为没有任何利益冲突来影响其使命。此外,这样组织还必须保持在研究的前沿(根据 Alan Kay 的名言,“预测未来的最好方法就是创造未来”)。为此,该组织需要有世界上最好的 AI 研究人员。
所以问题就变成了:是否有可能从头开始创建一个拥有最优秀 AI 研究人员的实验室?我们的结论:还是有机会。
这是我第一次见到 Elon 和 Ilya,我对他们的印象非常深刻。Elon 充满了好奇心,他真诚地征求他人意见并用心倾听每一份回答;而 Ilya 则是技术基础的源泉,他是一位头脑清晰的技术专家,知识广博,视野开阔,并且总是能够深入到当前系统局限性和功能的具体细节。
我请 Ilya 对深度学习给出一个好的定义,以下是他的回答:
有监督深度学习的目标是解决几乎所有“将 X 映射到 Y”形式的问题。X 包括图像、语音或文本,Y 包括类别甚至句子。将图像映射到类别、将语音映射到文本、将文本映射到类别等等,如此种种,深度学习都是非常有用的,而且其他方法无法做到。
深度学习一大吸引人的特点是它在很大程度上是独立于其他领域之外:在一个领域中学到的许多东西可以适用于其他领域。
深度学习模型中建立了抽象层,这些抽象可以完成工作,但很难理解它们究竟是如何做到的。模型通过使用反向传播算法(简单且高效)逐渐改变神经网络的突触强度来学习。因此,我们可以用极少的代码来构建出大规模复杂的系统(因为我们只需要编写模型和学习算法的代码,而非最终结果)。
晚宴结束后,Sam 送我回城里。我们都认同值得在 AI 领域做点什么。我知道,只有当有人愿意全心全意地弄清楚这究竟是什么,谁又能够加入其中,我们的愿景才会成为现实。那就让我来当这样的人吧。
所以,我明天又要构建一些有影响力的东西了。
5、OpenAI 的愿景
那次晚宴上,我们谈论了成立 OpenAI 实验室。虽然每个来参加晚宴的人都各抒己见,但并没有一个清晰的愿景,而 Elon 和 Sam 则提出了自己的想法:OpenAI 旨在构建安全的人工智能以造福人类。我也想尽可能贡献自己的力量,为了如愿以偿,便开始和 Sam 一起组建团队。
不过我们缺少了一个核心要素,即一位 AI 技术远见者,其直觉和想法可以帮助我们取得突破。
(从左至右依次为 Ilya Sutskever, Alex Krizhevsky, Geoffrey Hinton)
显然,Ilya Sutskever 是最佳人选。Ilya 可以说是一位艺术家,他常常通过机器学习来表达自己的感受(有时也会通过绘画来表达)。Geoffrey Hinton(深度学习教父)曾告诉我,AlexNet 之所以能引发一场计算机视觉深度学习革命,在于 Alex Krizhevsky 高超的 GPU 编码技能及 Ilya 的信念,即深度神经网络必定会在 ImageNet 竞赛中获胜。(Geoff 对自己贡献的管理技巧感到无比自豪。Alex 非常讨厌写论文,Geoff 告诉他,他在 ImageNet 上的性能每提高 1%,他就可以把论文推迟一周。结果 Alex 拖延了 15 周。)
一直以来,我都认为自己只能与相识多年的朋友共创公司。然而事实并非如此。八月下旬,我和 Ilya 在山景城共进晚餐,当时我就知道我们会一起合作,在此之前,我们也只在七月见过一次。我和 Ilya 聊得十分投机,尽管我对机器学习研究的了解不多,他对工程和团队建设的认识也没有那么深入,但我们对彼此的成就印象十分深刻,也希望能够相互学习。
我们交流了彼此的看法、汲取了彼此的长处。Ilya 认为,顶级研究人员希望在人工智能组织工作,而该组织致力于为世界创造最佳成果。在我看来,要想解决一些棘手问题,则需将私营企业的资源与学术界的使命相结合。
若无外界干预,人工智能将会像自动驾驶汽车一样发挥自身的作用。一旦人工智能的潜力得以证实,人们就会与之展开合作,而后则是一场场技术竞赛。不过,人类级别的人工智能将会是一种与众不同的变革性技术,有其独特的风险和收益。我们看到了这一机遇:在人工智能领域展开合作,汇集众多顶尖研究人员,以取得史上最重大的科技突破。
Ilya 和我一直在讨论团队组建方案,直到该方案得以落实。期间,我们讨论了战略(即将从事什么工作)、文化(想雇用的人员,即同等重视工程和研究的人员)和策略(举办每日阅读小组)。Alan Kay 与我们共进晚餐时,向我们讲述了施乐帕洛阿尔托研究中心(Xerox PARC)的故事,包括 Alto 的诞生及用硬件“在未来生存”,这些硬件在十年内将花费 1000 美元。
事后,Ilya 对用餐期间的谈话做了巧妙总结:“虽然 Alan 的话我只听懂了一半,但令人振奋不已。不过这顿饭帮我们验证了许多假设,即怎样才能构建一支能将工程与研究相结合的有影响力的团队。
6、早期团队的招募
由于 Ilya 还在谷歌工作,因此无法帮忙招聘,这一工作就落到了我身上。8 月至 11 月,由我负责创办团队。不过,我对人工智能并不熟悉,不清楚如何招募优秀的研究人员。我首先关注的是 7 月参加过晚宴的人,但不能确认具体人选。
下一步,便是通过人际网络与这些人取得联系,并依次寻求他们的推荐,这与我以往的招聘方式有所不同。对于初创公司而言,首要挑战总是要向候选人“兜售”使命,但在 OpenAI,使命立刻引发大家的共鸣。于我而言,挑战在于如何说服候选人相信这个未成形的组织。
人工智能领域顶尖人才的人际网络对我帮助很大。一位朋友引荐我认识 Andrej Karpathy 和 Wojciech Zaremba(OpenAI 联合创始人),由于我并未从事该领域工作,他们对我说的话表示怀疑。Yoshua Bengio 又将我引荐给 Durk Kingma(曾任 OpenAI 研究科学家,现在谷歌研究团队),当时后者对于我的提议表示很感兴趣,不过这种兴趣转瞬即逝。真正的转折点是 John Schulman(OpenAI 联合创始人、研究科学家)的评价,我跟他聊到这一组织的成立,他表示这样的组织正是他所追寻的,能将学术界的开放与使命同私企的资源相结合,因此加入了我们。John 的支持也引起了 Andrej 和 Wojciech 的关注。
招聘工程师相对容易一些。Trevor Blackwell 是一位机器人专家,也是 YC 的合伙人,他一直在与 Sam 讨论我们正在计划的疯狂想法。Vicki Cheung(现 Gantry 联合创始人)是在我们成立赞助机构“YC Research(现为 OpenResearch)”之后申请加入的。那时,我们虽未表明研究领域是 AI,但她深受 YC Research 构架的鼓舞,并表示很乐意参与我们团队的所有工作。
11 月初,虽然我们对创始团队有了更深入的了解,但仍然需要让大家正式加入进来。在 Sam 的建议下,我们邀请了所有候选人去户外漫步。期间,人人都真切地表达了内心想法、观点,才思泉涌(实际上,该地也是 Andrej 提出 Universe 之地)。回程中,一路上交通堵塞。不过几乎没人留意到这一点,因为大家聊得太投入了。
我们给此次活动的参与者都发了 offer,并将 offer 的截止日期设置为 12 月 1 日,这样我们就可以在 12 月初的 NIPS(NeurIPS)机器学习会议上发布成员加入的消息。
“月末”就这样开始了。Sam、Elon 还有我和每个人都聊了聊,主要是让大家相信这件事的真实性。除了一名完全无意涉足人工智能的工程师外,其他候选人都接受了我们的 offer。
Fred Brooks 在《人月神话》一书中提及了 Robert Heinlein 的故事,该故事讲述了“登月”项目。该项目的总工程师总会被运营任务分散注意力,例如关于运输车或电话的决策,这种情况一直持续到他收到一份报告,据报告显示不再让他负责所有与技术无关的任务。
这一故事给我留下了印象深刻,我认为它同样适用于构建人工智能的项目。技术领导除了做实际技术工作以外,同时还应该亲自做决策。我不知道自己的工程技能何时才能派上用场,不过在此期间,我决定尽我所能帮 Ilya 分担与研究无关的任务。
2016 年 1 月 4 日,我们整个团队来到第一间办公室(也就是我的公寓)开始工作。讨论中,John 和 Ilya 转身打算在白板上写点些什么,却发现这儿没有白板。我立即给他们买了一块白板,还有一些办公用品。
我们的第一间办公室(配有白板)
在一月剩下的时间里,我负责组织团队,帮忙确定哪些人负责哪些工作,以及团队想达成的目标。我们讨论了研究人员需要具备什么品质,践行公司理念,设计并确保面试顺利进行。此外,我们还谈论了愿景、工作方式以及想要达成的目标。我和 Vicki 购买了服务器,创建了 Google Apps 帐户,同时对我们 12 月启动的 Kubernetes 集群进行了维护。
余下的时间,我阅读了 Ian Goodfellow(GAN 网络发明者)的深度学习书籍(并写下了书评,由于我的评论比其官方评审员的评论更加全面,给他留下了深刻印象。因此,这也不失为一种招聘策略)。
7、Gym 库
比起使用新的数据集,使用一种新的算法通常能解决机器学习中的问题,Wojciech 建议构建一个库来形成强化学习环境的标准(实际上是动态数据集),现在称之为 Gym。这个代码库的质量很快成为我们迭代速度的高阶位(high-order bit)。二月底,我和 John 讨论了 Gym 的公开发布时间。按照目前的发展情况,他认为可能要到今年年底才能发布。
(我们正在用机器学习训练 Fetch 机器人。Gym 支持控制物理机器人和模拟机器人。)
一时之间,工程学成了研究进展的瓶颈。Ilya 与我互换了角色,由他负责行政工作,这样我就可以专注于技术工作。和 John 考察了这项工作之后,我们知道在四月底之前就能构建好 Gym。
在 Stripe 时,我发现了一个能够直接创建软件系统的可重复模式,即专注于软件,排除一切干扰,从早工作到晚。这样一来便能激励大家贡献自己最好的作品(重要的是,是以输出质量来衡量而不是工作时间)。这是我感觉最有活力的时候:编程就如魔法变成现实一般,我所想象和描述的事情都将成为可能。这种模式产生了 Stripe 信用卡保险库(2010 年构建完毕,也就是在我假期回家的两周内完成的)、信用卡授权流程(在三周内就能建成,而银行构建周期却需要 6-12 个月)和夺旗赛(通常我和其他人都要花三周的时间)。从战术上讲,我可以选择一个“试发行”日期和“正式”发布日期,间隔一两周;我从未选择过“试发行”日期,但从未错过“正式”发布日期。
随之而来的是从未面临过的挑战。由于我并非该领域的专家,起初,引起了很多摩擦。我会构造一个抽象的框架来帮助 Wojciech 的工作顺利进行,而 John 会发现这一举动阻碍了他的工作进程。但很快,我就了解到哪些决定会影响研究的工作流程(例如人们如何记录指标)以及哪些细节研究人员不会关注(例如人们如何录制视频)。在确定了案例对研究的重要性之后,要保持一定的谦逊,才能做出最佳选择。我通常会提出五个可能的备选方案,John 则会指出其中有四个方案都不行。但大多数设计决策可以通过软件工程的直觉做出,而无需深入了解相关领域。
幸运的是,我不是一个人。大约在 Gym 发布的前六周,曾与我在 Stripe 一起研究 CTF 3 的 Jonas Schneider 联系了我。短短几天时间,我们就在 Gym 上建立了合作关系。因为他人在德国,所以我们通过每日交接最终成功地完成了该项目。对于已经建立好工作关系的人来说,这真的很奇妙,若一切从头开始,我们不会保持如此紧密的工作关系。
(Gym 发布后不久,我们在 ICLR(国际表征学习大会)上分发 OpenAI 的 T 恤。)
总的来说,机器学习系统可视为机器学习的核心之一——通常是一种高级算法,要想理解该算法,至少需要阅读过几章 Ian 的书——涉及大量软件工程的内容。工程可以围绕数据进行改组,提供输入和输出的封装器,或调度分布式代码,这些都会都以黑盒形式与核心(core)连接。我们在工程和研究方面作出的努力达到一定程度时,机器学习就会取得进步。工程方面每多一分努力(例如减少 Universe 延迟),我们的模型问题就会逐渐变得更容易,并且有机会完成当前研究。
8、Universe 平台
在今年 4 月 Gym 上线后,我和 Ilya 开始调整组织流程。Sam 和 Elon 都会到访公司,提出一些指导意见,我们会根据其指导来确定团队的结构及目标。
(团队在第一间办公室工作的场景。当时办公室有白板,只是图片中未显示。)
多样、复杂的 AI 环境是必不可少的。Andrej 提出了一个不错的建议,即创建一个 Agent 来控制 Web 浏览器,但这与 Selenium 测试工具有所冲突。我开始考虑使用 VNC,以允许 Agent 从像素驱动整个桌面。
但我们发现,这种方法存在许多风险。例如,2013 年 DeepMind 发布的 Atari 文章提出,他们花了 50 个小时从像素训练 Pong 游戏,我们的环境将比 Pong 更难。即使是做小规模的实验,我们也需要花几天时间,而且不会取得任何进展。因此,我们设定了一个降低内部风险的目标,即让 Agent 在一小时内学会 Pong(如今我们已取得了突破:十分钟内便能解决 Pong 遇到的问题)。
就像构建 Gym 时那样,我专注于构建 VNC 系统,现称之为 Universe。与 Gym 不同的是,该项目并非旨在支持我们现有的研究方式,而是提出全新的问题。关于这一点,我们每个团队都有负责人,他们负责照顾自身团队的成员,我们的工程师 Jie Tang 已开始带头招聘。因此,行政这一重担并没有完全落在 Ilya 身上。这十分幸运,因为这样 Ilya 就能为该风险项目的首个版本构建 Agent。
一个从整个动作空间随机抽样的 Universe Agent(即随意点击、按键)。更多表现良好的 Agent 请参阅 Universe 发布的帖子。
Universe 项目耗时相当长,因此,需要合理分配时间来运营项目。我找到了一个平衡点,编码时,我会将时间进行划分。一次会议会扼杀整个上午/下午的生产力,若上午和下午都有会议,我将精疲力竭,从而导致晚间的编码效率大大降低。因此,我开始将会议时间限制在清晨或午餐后,且每天的会议次数低于三次,隔天的会议次数不超过一次。
搭建 Universe 本身就是一项系统研究工作:虽然高级规范很简单(允许 Agent 使用键盘/鼠标/屏幕),但从来没有人尝试过构建类似的系统。长期以来,人类一直可以用 VNC 控制一台远程机器,但还无法实现以编程方式同时控制数十台机器。
当我们需要衡量系统的端到端延迟时,Catherine Olsson 和我构建了一个系统来将时间戳嵌入图像中。有时挑战不是技术上的:当研究因为训练数据有限而受阻时,Tom Brown 在 24 小时内就组建了一个外包团队来玩游戏。有时候挑战也可能很难以理解,比如当 Jonathan Gray 注意到由于外包人员的笔记本电脑 CPU 较低端,游戏动态可能会与 AI 有所不同。
一天,当我正在努力重组一些 JSON 基准规范时,我意识到:我们需要重新构建这些规范,因为没有人从未尝试过在数千个游戏中对单个 Agent 进行基准测试。在 OpenAI,做艰苦的工作也是最基本的。
在接下来的几个月里,由 Dario Amodei 和 Rafał Józefowicz 负责 Universe 的研究工作。他们都是夜猫子,我也和他们一起熬过了很多个夜晚,解决研究中遇到的问题。有时我也想躺在床上睡觉,但每修复一个 Bug 都会使研究加速几个小时。每个人的工作中都有一些非常有用的东西,能让研究人员提出人类此前从未有过的问题。
Universe 团队在办公室开会
到发布时,Universe 团队已经有约 20 个人了。Universe 现在是一个旗舰项目,也是我们研究战略的核心部分。Universe 的例子恰好说明“工程”是如何成为当今 ML 研究的瓶颈,这也让我知道为什么有那么几天只想读 Ian 的书了。
9、下一步发展方向
我们现在是一个拥有四十人的公司,需要有人全力来优化团队。自 OpenAI 成立以来,我们一直在寻找合适的首任技术经理。几个月前,Sam 向我介绍了一位特别出色的工程执行人:Erika Reinhardt。Erika 曾在 Planet Labs 担任产品工程总监,现在在和 Sam 一起运营 voteplz.org。在 Planet Labs 时,Erika 是对端到端卫星成像系统了解最深的人之一。她工作努力,自驱力强,总能把事情做好,前同事都说她是所能遇到的最聪明的人。Sam 和我就准备邀请她加入公司。
公司团建,2016 年 10 月
但在选举会和 Universe 发布会上与我们合作时才是她最具魅力的时刻,她发现她的领导技能在这种环境中非常适用。她告诉我:在看到 OpenAI 在参议院举办的首次 AI 听证会上发言的那一刻,她就下定决定要加入 OpenAI。当时 OpenAI 说:我们正处于重大技术变革的开端,此时最重要就是要把握时机。
在 Stripe 时,Marc Hedlund 和我常会遇到他在之前的许多公司中都遇到的问题,所以他喜欢开玩笑说所有公司都一样。就这一点而言,确实有现实依据:如果将范围缩小一点,就会发现公司都是围绕一个目标来把人组织起来。但每个公司要解决的问题又不一样,这又决定了公司之间会有所差异。
大多数初创公司都是先创造出一种技术,然后随着时间的推移对其进行运营和扩展。OpenAI 是创造新技术的工厂,这意味着我们必须构建公司来创造新事物。我们需要维护基础设施和大型代码库,但它们又满足了我们快速行动、创新和通过结合软件工程和机器学习研究来达到新高度的需求。
在 OpenAI 当 CTO 的这段时光里,我做的正好是我最喜欢做的事:写代码。但即便如此,人仍然是我关注的焦点,所以我在 OpenAI 的故事是与社会的故事,而不是与技术的故事。
在未来,我们团队要继续携手并进,共同应对海因莱因短篇小说中“卡车或电话”的挑战,OpenAI 才能持续发展。在此,我向 Ilya、Sam、Elon 以及为 OpenAI 付出过的每一个人表示衷心的感谢。
其他人都在看
欢迎 Star、试用 OneFlow 最新版本:https://github.com/Oneflow-Inc/oneflow/
版权声明: 本文为 InfoQ 作者【OneFlow】的原创文章。
原文链接:【http://xie.infoq.cn/article/dfc38a54da150224554820637】。文章转载请联系作者。
评论