微軟CTO：AI大模型的“Scaling Law”還能走多遠？

華爾街見聞 · 16:10

本文作者：李笑寅

来源：硬AI

AI时代，大语言模型（Large Language Model,LLM）横行。

早在2020年，OpenAI就曾在一篇论文中提出一个定律：Scaling law。这个定律指的是大模型的最终性能主要与计算量、模型参数量和训练数据量三者的大小相关，而与模型的具体结构（层数/深度/宽度）基本无关。

此后，OpenAI在AI界风生水起，很多初创公司甚至科技巨头都将这一定律奉为圭臬。

随着AI技术的不断发展，越来越多的人开始对Scaling law提出质疑，一种主流的反对观点是认为这种训练逻辑可能会推动大模型沦为数据的奴仆，而离“人”越来越远。

在此背景下，7月9日，红杉资本的Pat Grady和Bill Coughran与微软CTO（首席技术官）Kevin Scott开展了一场AI主题的对谈，就微软的AI战略、与OpenAI的合作进度、大模型未来的发展方向等方面进行了探讨。

观看了访谈视频，本文将Kevin Scott的精彩观点整理如下：

1、微软的AI策略是建立一个平台、一个系统，而不是替代性技术。

2、过去20年里，人工智能领域最重要的进步都与“规模”（尤其是数据规模、算力规模）有关，我们已经将投资重点放在了扩大规模上。

3、Scaling law定律仍适用于当前业态——在扩张大模型的同时，边际效益并没有递减。

4、微软看中OpenAI的潜力在于，随着模型的扩展，OpenAI未来有望成为构建一个平台的基础。

5、数据的质量比数据的数量更重要，它能为人工智能训练算法提供模版，为未来的合作提供一个经济框架。

6、获取有价值的训练数据进行训练，然后对模型进行推理，围绕着二者将出现两种形态的商业模式，我们正在尝试AI推荐与广告相结合的商业模式。

7、下一代大模型即将问世，比之前更便宜、更强大。

以下是访谈的精华内容：

主持人：Kevin Scott，微软的首席技术官。我们很高兴认识凯文已经几十年了，可以追溯到他在谷歌的时候，当时你和我们的合作伙伴比尔·考特有交集。比尔今天将和我们一起参加一期特别节目，我们希望你今天玩得开心。
Kevin Scott：很高兴来到这里。
主持人：首先，我知道你以前谈过这个，但对我们的听众来说，他们可能不熟悉你的故事——一个来自弗吉尼亚州农村的孩子如何成为微软的CTO？谁会想到呢？
Kevin Scott：我确实觉得这是一个不可复制的经历。当我回想起我的人生故事时，它只是发生在正确的时间、正确的地点。我现在52岁了，所以当PC革命开始全面爆发时，我正好是10到12岁，我当时就像当你还是个孩子时，试图弄清楚你在做什么，你的兴趣在哪里。
一般来说，一个客观的教训是：如果你碰巧感兴趣，并且非常有动力去学习更多，做更多的事情，同时又发展得非常快，你可能会在合理的地方结束。我对计算机很感兴趣，并且是我家的第一个大学生，所以我是第一个获得学士学位的人。我主修计算机科学，辅修英语文学。所以我会在某个时刻思考，当我试图决定我拿到本科学位后要去哪里做什么。
我一贫如洗，厌倦了一直被抓，所以我选择了务实的道路。我认为拥有一个英文文学博士学位很好，但我在两个学位中选择了计算机科学，有一段时间我以为会成为一名计算机科学教授，我决定去成为一名编译、优化和编程语言的人，通过多年的研究生学习，我几乎一直坚持到最后，我想，我不认为我想成为一名教授了。通过六个月的努力写一篇论文，让一些合成基准提高3%——我觉得这对我来说不像是在世界上产生很大影响的方式。而且，我不想一直重复这些工作。
所以我在2003年给谷歌投了简历，我收到了一个人的电子邮件：克雷格·内布尔·曼宁，他刚刚去纽约开设了谷歌的第一个远程工程师办公室。我经历了一个很棒的面试，我不知道这是有意为之还只是我运气好，但是好像每个在谷歌工作的编译人员都在我的面试名单上，这太神奇了。
这个面试带来的机会是我最终加入这个创业公司的广告团队，当时它还很初期，就在移动设备准备起飞的关键时刻。我帮助建立了这家公司移动广告的基础设施，然后回到了谷歌本部，此后我帮助领英上市，管理其工程运营团队，再然后我们被微软收购。
主持人：你在正确的地点，正确的时间和尝试，尽你所能了，你在真正成长的事物上做最有趣的事情。现在我们将焦点转向AI机器学习。
显然，你在微软做了很多工作，并参与了与OpenAI和其他公司的合作，你如何看待AI实践团队？
Kevin Scott：我认为如果你是要构建非常复杂的平台AI的话，比如用于训练和推理的大型分布式系统，需要网络、硅这类系统软件组件，我认为博士学位非常有帮助。你需要拥有大量的基础知识才能跳入问题并能够快速前进，或者说，你一定需要博士学位，但需要足够聪明，一般来说拥有博士学位的人很聪明。所以，我认为这是主要起到帮助作用的因素，因为你已经经历了一个相当严格的训练计划，在那里你将一堆先前的技术塞进你的脑子，可以处理一个非常复杂的项目，并且你有博士学位。
主持人：看起来有点像AI平台系统项目，然而，当你获得博士学位时，你通常会在你的特定事物上相对孤立地工作。所以，人们必须学习的一件事就是如何将自己融入一个团队，并能够与其他一些人有效地协作。你的建议很有帮助。不过除了构建平台之外，AI还有很多其他事情需要做。比如弄清楚如何将其应用于教育、如何将其应用于医疗保健、如何围绕此构建开发人员工具等等，
说到这里，微软似乎拥有最具影响力和雄心的AI战略。你能用几句话来说一下，微软的AI战略是什么吗？如果你要给自己打分，你在其中表现最好的工作是什么？哪些工作可能相对没那么好？
Kevin Scott：我们实际上一直在谈论这个话题。我认为，微软是一家平台公司，我们参与或帮助推动了一些大型平台计算浪潮，我们当之无愧的是PC革命中的支柱公司之一，我们在互联网革命中扮演了重要角色，尽管我认为那是一个遥远的角色。
我们考虑的是，如何为这个特定的技术时代构建一个技术平台，允许其他人在该平台上构建，为其他人制作有用的东西——这就是我们的AI策略。从前沿模型到小型语言模型，再到高度优化的推理基础设施，我们在不断拓展训练和推理规模，使整个平台更易于访问，让每代模型更便宜、更强大。就像其他所有开发者工具一样，保证安全基础设施和测试以及一切必要的东西，以便构建稳健的AI应用程序，这样你就可以填补技术空白。这就是我们的策略，我认为我们做得很好。
我是一名工程师，我认为大多数工程师都是短期悲观主义者，长期乐观主义者。比如“我不喜欢这些，我有很多事情要解决，我很沮丧，但我仍然要处理所有这些事情，并认为它们最终都会解决”。所以，有很多事情我认为我们做得非常好。这点就是绝对的：我们与OpenAI一起，使非常强大的AI被更多人使用。由于我们与OpenAI一起做的工作，我们发现了很多新客户，否则他们不会构建强大的AI应用程序。所以，我觉得在和OpenAI合作上我们做的很好。我们目前秉持一个理念，虽然未来可能也会改变，就是关于一个AI平台究竟应该是什么样子的理念，我们正在努力使它尽可能完整。
我认为我们实际上喜欢上一些基本的AI已经称得上有点晚了。所以并不是我们没有投资AI。你可以看看微软研究院多年来所做的一些工作（MSR可以说是早期的AI领路人）。
实际上，也许在过去20年里，人工智能领域最重要的进步都与某种规模有关——通常是数据规模和计算规模的组合，它们可以让你做一些在较低规模点上不可能做到的事情。在某个时候，数据和算力是指数级的规模，以至于你可以进行零散的赌注。从经济学角度讲，不可能把赌注押在10种不同的事物上，而这些事物同时都在以指数级的速度扩展，或者都有同时以指数级的速度扩展的趋势。
所以我认为，还有一件事我们也做的有点晚了，就是我们没有尽快把所有的鸡蛋都放在正确的篮子里。我们在AI上花了很多钱，但它分散在一堆不同的东西上。因为我们不想伤害聪明人的感情。不管怎样，我甚至不知道这些项目最后的城垛是什么，因为很多都是在我来微软之前做的，我们的动作只是没有像我们说的那样快，不过目前我们已经将投资重点放在了扩大规模上。
主持人：你是什么时候开始成为“规模第一”的信徒的？有一个特定的时间或事件吗？
Kevin Scott：我曾经在微软工作了大约七年半，如果当我成为CTO时，我的工作就像从左到右扫描微软和整个行业，试着看看哪里是我们只是在执行方面存在漏洞，大约两三年后，微软最大的问题就会是在AI上的进展速度不够快。所以我会说，2017年中期，我就有对扩大规模的信仰了，这是我工作的重要组成部分，这帮助我们弄清楚战略是什么。
在那之后不久，我重组了微软内部的一大堆东西，让我们更加专注于AI。大约一年后，我们与OpenAI达成了第一笔交易。是的，我们一直在加快投资，试图更加专注、更加清晰、更加有目的。
主持人：你最早看中了OpenAI的什么潜力？
Kevin Scott：我们相信，或者至少我相信，随着这些模型的扩展，它们将成为构建一个平台的基础。
你有一个数据池、一堆机器和一个算法，就可以训练一个模型，但这个模型就像在训练一个特定的东西。就像我在谷歌做的另一件事，它就像广告点击率预测，精准且有效，对吗？但在此之前，在GPT之前，大部分工作都是关于那些狭窄的用例。就像你在为狭隘的事情建立模型，而且很难扩展。
如果你想复制这一切，你必须有不同的数据应用方向的博士和AI方向的博士。并且，只要想在应用中构建人工智能时，都要有不同的流程。而当时的情况是，OpenAIO的这些大型语言模型对很多不同的事情都适用，这样你就不需要为机器翻译和情感分析建立单独的模型了。我当时就想，好吧，这真是非同寻常。
因此，随着规模的扩大，迁移学习的效果更好。我们知道，大型语言模型可以做加减法，所以当你走到下一个规模点，它们的能力集会变得略微或显著地更加通用。并且，我们和OpenAI也拥有同样的信念。他们对这些平台特征如何随着时间的推移作为规模的函数出现进行了非常原则性的分析，并进行了大量的实验验证，证明了他们的猜想是对的。
所以，找到一个与你有相同平台信念的合作伙伴，并且有能够通过这些规模点来执行训练验证，这并不像我以前做过的很多事情，我对过去的投资有更多的保留，但对于这次合作有很高的信念，尽管有很多人不同意这个观点。
主持人：你提到投资，现在有很多行业媒体都在猜测训练模型的成本，有传言说要花几十亿、几百亿美元等等。我想，根据我自己的背景，我认为训练很快就会被推理取代，否则，我们建造的模型就没人知道该怎么用了，对吧？这样的投资可能并不划算。
所以，你如何看待计算领域的发展？它将走向何方？我想人们会开玩笑说，现在所有的钱都流向了英伟达。
Kevin Scott：英伟达做得很好。就规模扩大的效率而言，目前正在发生的有趣的事情是，每一代硬件的价格性能都更高，其程度通常超过了摩尔定律在通用计算领域的应用。你知道，A100比V100的性价比要好三倍半，H100，虽然不是那么好，但很接近。从目前的文字描述来看，下一代看起来也非常好。所以出于各种原因，你拥有的硬件在流程技术和架构组成这样的部分上是可以重复利用的。
所以，你不需要64位的算术运算，而需要的是精度更低的算术运算。这样一来，并行性就大到令人尴尬的地步了。我们在硬件架构上提取并行性的能力越来越强，网络方面也有很多创新。就像我们已经过了前沿模型的阶段，至少你可以在单个GPU上完成任何有趣的事情。多年来，训练和推理都是如此。
实际上，自2012年以来，我们就没有进行过有效的功率缩放，晶体管越来越多，但温度却越来越低。我们有很多密度问题，只是我们必须去处理的功率耗散问题。
主持人：此种推论是否驱动着不同的数据中心架构？
Kevin Scott：我们已经以不同的方式构建了我们的训练环境和推理环境。一直到硅，再到网络层次结构，你需要不同的东西来进行推理，推理比训练更容易。我们现在正在通过推理构建需要几年时间才能构建的大环境。
如果有人提出了更好的硅架构、更好的网络架构、更好的冷却技术，就像这是一个更容易运行的实验，你只需要交换一些机架就可以。我的意思是这比做一个大型资本项目那样的训练环境更容易。所以，直觉上，你会认为这将导致推理环境更加多样化，竞争更加激烈，迭代速度更快。
在软件方面，我们看到推理堆栈的情况也是如此，因为它在整个计算占用空间中占了很大一部分，而且由于目前供不应求，它受到了限制。因此，你有很大的动力去优化软件堆栈，以榨取更多的性能。
主持人：你认为我们会很快处于一个需求供应平衡发生变化的环境中吗？不一定是在微软，但感觉我们也在市场层面上看到了这一点。
Kevin Scott：建立前沿模型就像是一件非常耗费资源的事情.只要人们喜欢构建前沿模型并使它们易于访问，就像它们可能不是人们想要的可接受的可访问方式，你知道，就像只有API可访问的，就像没有开源的东西，你可以实例化，你知道，到处乱搞，但是。就像你已经看到的趋势。
建立前沿模型是一件非常耗费资源的事情，只要人们喜欢构建前沿模型并致力于让它们易于访问，就要花一大笔钱在这方面。如果你现在要开一家公司，前提是你必须建立起自己的前沿模型才行。
打个比方来说，就是我必须去构建自己的智能手机硬件和操作系统，以便交付这个移动应用程序。
我认为，对市场而言，有意义的事情就是，你会希望看到很多人在做很多模型推理，因为这意味着你有很多产品已经找到了产品市场契合点，这意味着这些东西正在扩展，但就像大量的投机资金流入基础设施研发一样。
在扩展方面，微软前不久发表了一篇论文，指出训练数据的质量至少与数量同等重要。我认为，你现在在业界看到的猜测是，我们正在耗尽高质量培训数据的来源。你至少读到过一些文章，声称正在建立各种合作关系，以获取培训数据，而这些数据可能都在付费墙之后，等等。你认为这种情况会如何发展？因为我们感觉计算能力越来越强，但训练数据却可能越来越少。
我认为这几乎是不可避免的。在我看来，数据的质量比数据的数量更重要，这是一件好事，因为它能为人工智能训练算法提供模版，为未来的合作提供一个经济框架。
你知道这将会产生更智能的模型。老实说，这样就不会浪费大量的计算资源，而去做一些无关紧要的事情。我认为，从基础架构的角度来看，人们一直很困惑的一点是，大型语言模型不是数据库。如果你需要它成为你的检索引擎，你不应该把它想成是“嘿，我有了这个东西，就必须把所有东西都装进去”。
我们认为事情发展的方式是，你拥有对训练模型有价值的数据，然后你需要访问数据或应用程序，以便对模型进行推理。这两者是两码事。我认为，围绕这些东西，它们可能是两种不同的商业模式。
我们现在所有这些数据都在搜索引擎中，不是在随机权重中，而是非常明确地坐落在索引中，就像在谷歌等待被检索。你输入一个查询，然后你要么发送流量，要么进行搜索引擎优化和广告投放，就像围绕着这些的一大堆商业模式。
我认为，我们会为推荐数据找出一个商业模式，这样，当代理或人工智能应用需要从某人那里获取一些信息时，它就可以推理并给用户一个答案。我们会为此找出商业模式。要么是订阅，要么是分享，要么是授权，要么是新的广告模式。前几天我还在跟别人说，如果我现在还在20多岁，对于你们所有的创业者来说，我们现在就应该有人去搞清楚新广告单元对代理商来说是什么，就像刚刚建立的公司一样，因为它将与以前的广告单元具有相同的特点和品质，就像你有信息、产品和服务的人，他们希望得到可能需要这些数据、产品和服务的人的关注。质量很重要，相关性也很重要，还有很多其他的东西。
主持人：说起来，我们经常听到的一件事是价值函数在某些方面是更广泛推理能力的瓶颈。但是当你进入更广泛的领域时，构建价值函数变得更加困难。这个问题有实际的解决方案吗？有实际的影响吗？我想更广泛的问题是，你认为推理和元素的整体领域会走向何方？
Kevin Scott：我们只是通过一系列的基准范例来尝试得出结论。在过去的几年中，我们看到的有趣的事情之一就是我们正在非常快速地饱和这些基准，在模型一代中，你会完全或非常接近饱和特定的基准，然后你必须找到其他东西来帮助成为你的指路明灯。所以，你提到的这个问题实际上是一系列昂贵的实验，它们只是在你能想象到的最细粒度上昂贵地运行就像教科书一样，它就像是一个故事的一部分，为评估地象征性做贡献。
主持人：你认为目前的模型在什么水平？我认为，微软已经推出了一大批合作试点项目，试图帮助终端用户使用你的产品等等。另一方面，我看到很多公司都在尝试建立能够自主行动的代理。现在，这些模型的预期性能范围很广。你认为我们在哪里，在未来几年内将处于什么位置？
Kevin Scott：我认为这是一个非常好的问题。你知道，甚至有一个哲学观点认为每个人的工作都会被AI所取代，之所以给AI“副驾驶”的名号，是因为我们希望至少鼓励微软内部正在构建这些东西的每个人思考：我如何才能帮助那些正在从事某种形式的认知工作的人，让他们能够增强他们的认知能力。
所以，我们想建立的是一个系统，而不是替代性技术。好消息是，当你把范围缩小到一个领域时，也更容易思考如何从粗略的前沿模型能力转变为有用的工具。因此，我认为这是一条合理的部署路径。我们已经有一些合作试点项目，现在已经有了真正的市场牵引力，很多人都在日常使用。
并且实际上，副驾能做的工作越笼统，就让它越难取代你自主采取高精度行动，特别是当你知道它在代表你做什么的时候。一旦它出现一大堆错误，用户的第一反应就是“这行不通”，“我好长一段时间都不会再试了”，这样的错误比比皆是。这意味着你又要针对用例进行优化，而不是超级宽泛的东西。因此，我们更希望在推出之前，它就已经非常好了。
主持人：每个人都以同样的方式开始玩OpenAI，然后也许他们开始使用一些其他专有的基础模型，这些模型结合了一些开源模型，也许他们有一些自己的东西。那里有一个向量数据库。从架构的角度来看，感觉人们倾向于走一段不完全相同的旅程。但在12或18个月后，我们从他们那里听到的是，有一种巨大的八二法则在起作用——你可以非常快速和有效地自动化大部分任务，但最后一英里，最后百分之几，难以让你真正信任它。
是的，对于许多任务来说，这似乎是相当难以捉摸的。所以我非常好奇的一件事是，基础模型本身何时变得足够好，以消除最后的2%？
Kevin Scott：我认为，在一段时间内，这两者都会存在。我知道你们可能会问这个问题，不管别人怎么看，我们在扩大规模的同时没有看到边际收益的递减，我也一直试着让大家去理解这点。实际上，我们有一个衡量参数，但每隔几年才能对进行一次采样，因为建造超级计算机和在其上训练模型都需要一段时间。
下个模型正在路上，我不能告诉你什么时候，也不能准确预测它会有多好，但它几乎肯定会更好，可以解决那些你会觉得“哦，我的上帝，这个有点太贵了”或“这太容易崩了”的问题，所有这些都会变得更好，并且变得更便宜、更耐用，让更复杂的事情成为可能，在每一代模型更迭中，这样的故事一直在上演。
我们甚至在微软内部都在思考这个问题，我们自己的开发人员在开发这些人工智能产品时可能会犯的一个错误就是，他们认为解决我的问题的唯一方法就是，我必须去利用当前的前沿技术，并用一大堆东西来补充它。但你也确实必须这么做，但在架构上要非常小心，当你这么做的时候，它并不会阻止你在下一个样本到来的时候采取下一个样本。
所以，大家一心想的是架构好这些应用，当新的好东西来临时，你可以去把它应用上。我认为这是我们一直在反复锤炼的部分。
让我们内部很头疼的一件事是，公司内部有一些团队在看到前沿模型后会说，天哪，我们不可能在这上面部署产品，因为这很脆弱，而且太贵了。我给大家的建议是，给自己足够的灵活性，以便在新的前沿出现时，能迅速适应它。这样你就能保留你的怀疑精神，相信你所相信的领域。

本文作者：李笑寅

來源：硬AI

AI時代，大語言模型（Large Language Model,LLM）橫行。

早在2020年，OpenAI就曾在一篇論文中提出一個定律：Scaling law。這個定律指的是大模型的最終性能主要與計算量、模型參數量和訓練數據量三者的大小相關，而與模型的具體結構（層數/深度/寬度）基本無關。

此後，OpenAI在AI界風生水起，很多初創公司甚至科技巨頭都將這一定律奉爲圭臬。

隨着AI技術的不斷髮展，越來越多的人開始對Scaling law提出質疑，一種主流的反對觀點是認爲這種訓練邏輯可能會推動大模型淪爲數據的奴僕，而離“人”越來越遠。

在此背景下，7月9日，紅杉資本的Pat Grady和Bill Coughran與微軟CTO（首席技術官）Kevin Scott開展了一場AI主題的對談，就微軟的AI戰略、與OpenAI的合作進度、大模型未來的發展方向等方面進行了探討。

觀看了訪談視頻，本文將Kevin Scott的精彩觀點整理如下：

1、微軟的AI策略是建立一個平台、一個系統，而不是替代性技術。

2、過去20年裏，人工智能領域最重要的進步都與“規模”（尤其是數據規模、算力規模）有關，我們已經將投資重點放在了擴大規模上。

3、Scaling law定律仍適用於當前業態——在擴張大模型的同時，邊際效益並沒有遞減。

4、微軟看中OpenAI的潛力在於，隨着模型的擴展，OpenAI未來有望成爲構建一個平台的基礎。

5、數據的質量比數據的數量更重要，它能爲人工智能訓練算法提供模版，爲未來的合作提供一個經濟框架。

6、獲取有價值的訓練數據進行訓練，然後對模型進行推理，圍繞着二者將出現兩種形態的商業模式，我們正在嘗試AI推薦與廣告相結合的商業模式。

7、下一代大模型即將問世，比之前更便宜、更強大。

以下是訪談的精華內容：

主持人：Kevin Scott，微軟的首席技術官。我們很高興認識凱文已經幾十年了，可以追溯到他在谷歌的時候，當時你和我們的合作伙伴比爾·考特有交集。比爾今天將和我們一起參加一期特別節目，我們希望你今天玩得開心。
Kevin Scott：很高興來到這裏。
主持人：首先，我知道你以前談過這個，但對我們的聽衆來說，他們可能不熟悉你的故事——一個來自弗吉尼亞州農村的孩子如何成爲微軟的CTO？誰會想到呢？
Kevin Scott：我確實覺得這是一個不可複製的經歷。當我回想起我的人生故事時，它只是發生在正確的時間、正確的地點。我現在52歲了，所以當PC革命開始全面爆發時，我正好是10到12歲，我當時就像當你還是個孩子時，試圖弄清楚你在做什麼，你的興趣在哪裏。
一般來說，一個客觀的教訓是：如果你碰巧感興趣，並且非常有動力去學習更多，做更多的事情，同時又發展得非常快，你可能會在合理的地方結束。我對計算機很感興趣，並且是我家的第一個大學生，所以我是第一個獲得學士學位的人。我主修計算機科學，輔修英語文學。所以我會在某個時刻思考，當我試圖決定我拿到本科學位後要去哪裏做什麼。
我一貧如洗，厭倦了一直被抓，所以我選擇了務實的道路。我認爲擁有一個英文文學博士學位很好，但我在兩個學位中選擇了計算機科學，有一段時間我以爲會成爲一名計算機科學教授，我決定去成爲一名編譯、優化和編程語言的人，通過多年的研究生學習，我幾乎一直堅持到最後，我想，我不認爲我想成爲一名教授了。通過六個月的努力寫一篇論文，讓一些合成基準提高3%——我覺得這對我來說不像是在世界上產生很大影響的方式。而且，我不想一直重複這些工作。
所以我在2003年給谷歌投了簡歷，我收到了一個人的電子郵件：克雷格·內布爾·曼寧，他剛剛去紐約開設了谷歌的第一個遠程工程師辦公室。我經歷了一個很棒的面試，我不知道這是有意爲之還只是我運氣好，但是好像每個在谷歌工作的編譯人員都在我的面試名單上，這太神奇了。
這個面試帶來的機會是我最終加入這個創業公司的廣告團隊，當時它還很初期，就在移動設備準備起飛的關鍵時刻。我幫助建立了這家公司移動廣告的基礎設施，然後回到了谷歌本部，此後我幫助領英上市，管理其工程運營團隊，再然後我們被微軟收購。
主持人：你在正確的地點，正確的時間和嘗試，盡你所能了，你在真正成長的事物上做最有趣的事情。現在我們將焦點轉向AI機器學習。
顯然，你在微軟做了很多工作，並參與了與OpenAI和其他公司的合作，你如何看待AI實踐團隊？
Kevin Scott：我認爲如果你是要構建非常複雜的平台AI的話，比如用於訓練和推理的大型分佈式系統，需要網絡、硅這類系統軟件組件，我認爲博士學位非常有幫助。你需要擁有大量的基礎知識才能跳入問題並能夠快速前進，或者說，你一定需要博士學位，但需要足夠聰明，一般來說擁有博士學位的人很聰明。所以，我認爲這是主要起到幫助作用的因素，因爲你已經經歷了一個相當嚴格的訓練計劃，在那裏你將一堆先前的技術塞進你的腦子，可以處理一個非常複雜的項目，並且你有博士學位。
主持人：看起來有點像AI平台系統項目，然而，當你獲得博士學位時，你通常會在你的特定事物上相對孤立地工作。所以，人們必須學習的一件事就是如何將自己融入一個團隊，並能夠與其他一些人有效地協作。你的建議很有幫助。不過除了構建平台之外，AI還有很多其他事情需要做。比如弄清楚如何將其應用於教育、如何將其應用於醫療保健、如何圍繞此構建開發人員工具等等，
說到這裏，微軟似乎擁有最具影響力和雄心的AI戰略。你能用幾句話來說一下，微軟的AI戰略是什麼嗎？如果你要給自己打分，你在其中表現最好的工作是什麼？哪些工作可能相對沒那麼好？
Kevin Scott：我們實際上一直在談論這個話題。我認爲，微軟是一家平台公司，我們參與或幫助推動了一些大型平台計算浪潮，我們當之無愧的是PC革命中的支柱公司之一，我們在互聯網革命中扮演了重要角色，儘管我認爲那是一個遙遠的角色。
我們考慮的是，如何爲這個特定的技術時代構建一個技術平台，允許其他人在該平台上構建，爲其他人制作有用的東西——這就是我們的AI策略。從前沿模型到小型語言模型，再到高度優化的推理基礎設施，我們在不斷拓展訓練和推理規模，使整個平台更易於訪問，讓每代模型更便宜、更強大。就像其他所有開發者工具一樣，保證安全基礎設施和測試以及一切必要的東西，以便構建穩健的AI應用程序，這樣你就可以填補技術空白。這就是我們的策略，我認爲我們做得很好。
我是一名工程師，我認爲大多數工程師都是短期悲觀主義者，長期樂觀主義者。比如“我不喜歡這些，我有很多事情要解決，我很沮喪，但我仍然要處理所有這些事情，並認爲它們最終都會解決”。所以，有很多事情我認爲我們做得非常好。這點就是絕對的：我們與OpenAI一起，使非常強大的AI被更多人使用。由於我們與OpenAI一起做的工作，我們發現了很多新客戶，否則他們不會構建強大的AI應用程序。所以，我覺得在和OpenAI合作上我們做的很好。我們目前秉持一個理念，雖然未來可能也會改變，就是關於一個AI平台究竟應該是什麼樣子的理念，我們正在努力使它儘可能完整。
我認爲我們實際上喜歡上一些基本的AI已經稱得上有點晚了。所以並不是我們沒有投資AI。你可以看看微軟研究院多年來所做的一些工作（MSR可以說是早期的AI領路人）。
實際上，也許在過去20年裏，人工智能領域最重要的進步都與某種規模有關——通常是數據規模和計算規模的組合，它們可以讓你做一些在較低規模點上不可能做到的事情。在某個時候，數據和算力是指數級的規模，以至於你可以進行零散的賭注。從經濟學角度講，不可能把賭注押在10種不同的事物上，而這些事物同時都在以指數級的速度擴展，或者都有同時以指數級的速度擴展的趨勢。
所以我認爲，還有一件事我們也做的有點晚了，就是我們沒有儘快把所有的雞蛋都放在正確的籃子裏。我們在AI上花了很多錢，但它分散在一堆不同的東西上。因爲我們不想傷害聰明人的感情。不管怎樣，我甚至不知道這些項目最後的城垛是什麼，因爲很多都是在我來微軟之前做的，我們的動作只是沒有像我們說的那樣快，不過目前我們已經將投資重點放在了擴大規模上。
主持人：你是什麼時候開始成爲“規模第一”的信徒的？有一個特定的時間或事件嗎？
Kevin Scott：我曾經在微軟工作了大約七年半，如果當我成爲CTO時，我的工作就像從左到右掃描微軟和整個行業，試着看看哪裏是我們只是在執行方面存在漏洞，大約兩三年後，微軟最大的問題就會是在AI上的進展速度不夠快。所以我會說，2017年中期，我就有對擴大規模的信仰了，這是我工作的重要組成部分，這幫助我們弄清楚戰略是什麼。
在那之後不久，我重組了微軟內部的一大堆東西，讓我們更加專注於AI。大約一年後，我們與OpenAI達成了第一筆交易。是的，我們一直在加快投資，試圖更加專注、更加清晰、更加有目的。
主持人：你最早看中了OpenAI的什麼潛力？
Kevin Scott：我們相信，或者至少我相信，隨着這些模型的擴展，它們將成爲構建一個平台的基礎。
你有一個數據池、一堆機器和一個算法，就可以訓練一個模型，但這個模型就像在訓練一個特定的東西。就像我在谷歌做的另一件事，它就像廣告點擊率預測，精準且有效，對嗎？但在此之前，在GPT之前，大部分工作都是關於那些狹窄的用例。就像你在爲狹隘的事情建立模型，而且很難擴展。
如果你想複製這一切，你必須有不同的數據應用方向的博士和AI方向的博士。並且，只要想在應用中構建人工智能時，都要有不同的流程。而當時的情況是，OpenAIO的這些大型語言模型對很多不同的事情都適用，這樣你就不需要爲機器翻譯和情感分析建立單獨的模型了。我當時就想，好吧，這真是非同尋常。
因此，隨着規模的擴大，遷移學習的效果更好。我們知道，大型語言模型可以做加減法，所以當你走到下一個規模點，它們的能力集會變得略微或顯著地更加通用。並且，我們和OpenAI也擁有同樣的信念。他們對這些平台特徵如何隨着時間的推移作爲規模的函數出現進行了非常原則性的分析，並進行了大量的實驗驗證，證明了他們的猜想是對的。
所以，找到一個與你有相同平台信念的合作伙伴，並且有能夠通過這些規模點來執行訓練驗證，這並不像我以前做過的很多事情，我對過去的投資有更多的保留，但對於這次合作有很高的信念，儘管有很多人不同意這個觀點。
主持人：你提到投資，現在有很多行業媒體都在猜測訓練模型的成本，有傳言說要花幾十億、幾百億美元等等。我想，根據我自己的背景，我認爲訓練很快就會被推理取代，否則，我們建造的模型就沒人知道該怎麼用了，對吧？這樣的投資可能並不划算。
所以，你如何看待計算領域的發展？它將走向何方？我想人們會開玩笑說，現在所有的錢都流向了英偉達。
Kevin Scott：英偉達做得很好。就規模擴大的效率而言，目前正在發生的有趣的事情是，每一代硬件的價格性能都更高，其程度通常超過了摩爾定律在通用計算領域的應用。你知道，A100比V100的性價比要好三倍半，H100，雖然不是那麼好，但很接近。從目前的文字描述來看，下一代看起來也非常好。所以出於各種原因，你擁有的硬件在流程技術和架構組成這樣的部分上是可以重複利用的。
所以，你不需要64位的算術運算，而需要的是精度更低的算術運算。這樣一來，並行性就大到令人尷尬的地步了。我們在硬件架構上提取並行性的能力越來越強，網絡方面也有很多創新。就像我們已經過了前沿模型的階段，至少你可以在單個GPU上完成任何有趣的事情。多年來，訓練和推理都是如此。
實際上，自2012年以來，我們就沒有進行過有效的功率縮放，晶體管越來越多，但溫度卻越來越低。我們有很多密度問題，只是我們必須去處理的功率耗散問題。
主持人：此種推論是否驅動着不同的數據中心架構？
Kevin Scott：我們已經以不同的方式構建了我們的訓練環境和推理環境。一直到硅，再到網絡層次結構，你需要不同的東西來進行推理，推理比訓練更容易。我們現在正在通過推理構建需要幾年時間才能構建的大環境。
如果有人提出了更好的硅架構、更好的網絡架構、更好的冷卻技術，就像這是一個更容易運行的實驗，你只需要交換一些機架就可以。我的意思是這比做一個大型資本項目那樣的訓練環境更容易。所以，直覺上，你會認爲這將導致推理環境更加多樣化，競爭更加激烈，迭代速度更快。
在軟件方面，我們看到推理堆棧的情況也是如此，因爲它在整個計算佔用空間中佔了很大一部分，而且由於目前供不應求，它受到了限制。因此，你有很大的動力去優化軟件堆棧，以榨取更多的性能。
主持人：你認爲我們會很快處於一個需求供應平衡發生變化的環境中嗎？不一定是在微軟，但感覺我們也在市場層面上看到了這一點。
Kevin Scott：建立前沿模型就像是一件非常耗費資源的事情.只要人們喜歡構建前沿模型並使它們易於訪問，就像它們可能不是人們想要的可接受的可訪問方式，你知道，就像只有API可訪問的，就像沒有開源的東西，你可以實例化，你知道，到處亂搞，但是。就像你已經看到的趨勢。
建立前沿模型是一件非常耗費資源的事情，只要人們喜歡構建前沿模型並致力於讓它們易於訪問，就要花一大筆錢在這方面。如果你現在要開一家公司，前提是你必須建立起自己的前沿模型才行。
打個比方來說，就是我必須去構建自己的智能手機硬件和操作系統，以便交付這個移動應用程序。
我認爲，對市場而言，有意義的事情就是，你會希望看到很多人在做很多模型推理，因爲這意味着你有很多產品已經找到了產品市場契合點，這意味着這些東西正在擴展，但就像大量的投機資金流入基礎設施研發一樣。
在擴展方面，微軟前不久發表了一篇論文，指出訓練數據的質量至少與數量同等重要。我認爲，你現在在業界看到的猜測是，我們正在耗盡高質量培訓數據的來源。你至少讀到過一些文章，聲稱正在建立各種合作關係，以獲取培訓數據，而這些數據可能都在付費牆之後，等等。你認爲這種情況會如何發展？因爲我們感覺計算能力越來越強，但訓練數據卻可能越來越少。
我認爲這幾乎是不可避免的。在我看來，數據的質量比數據的數量更重要，這是一件好事，因爲它能爲人工智能訓練算法提供模版，爲未來的合作提供一個經濟框架。
你知道這將會產生更智能的模型。老實說，這樣就不會浪費大量的計算資源，而去做一些無關緊要的事情。我認爲，從基礎架構的角度來看，人們一直很困惑的一點是，大型語言模型不是數據庫。如果你需要它成爲你的檢索引擎，你不應該把它想成是“嘿，我有了這個東西，就必須把所有東西都裝進去”。
我們認爲事情發展的方式是，你擁有對訓練模型有價值的數據，然後你需要訪問數據或應用程序，以便對模型進行推理。這兩者是兩碼事。我認爲，圍繞這些東西，它們可能是兩種不同的商業模式。
我們現在所有這些數據都在搜索引擎中，不是在隨機權重中，而是非常明確地坐落在索引中，就像在谷歌等待被檢索。你輸入一個查詢，然後你要麼發送流量，要麼進行搜索引擎優化和廣告投放，就像圍繞着這些的一大堆商業模式。
我認爲，我們會爲推薦數據找出一個商業模式，這樣，當代理或人工智能應用需要從某人那裏獲取一些信息時，它就可以推理並給用戶一個答案。我們會爲此找出商業模式。要麼是訂閱，要麼是分享，要麼是授權，要麼是新的廣告模式。前幾天我還在跟別人說，如果我現在還在20多歲，對於你們所有的創業者來說，我們現在就應該有人去搞清楚新廣告單元對代理商來說是什麼，就像剛剛建立的公司一樣，因爲它將與以前的廣告單元具有相同的特點和品質，就像你有信息、產品和服務的人，他們希望得到可能需要這些數據、產品和服務的人的關注。質量很重要，相關性也很重要，還有很多其他的東西。
主持人：說起來，我們經常聽到的一件事是價值函數在某些方面是更廣泛推理能力的瓶頸。但是當你進入更廣泛的領域時，構建價值函數變得更加困難。這個問題有實際的解決方案嗎？有實際的影響嗎？我想更廣泛的問題是，你認爲推理和元素的整體領域會走向何方？
Kevin Scott：我們只是通過一系列的基準範例來嘗試得出結論。在過去的幾年中，我們看到的有趣的事情之一就是我們正在非常快速地飽和這些基準，在模型一代中，你會完全或非常接近飽和特定的基準，然後你必須找到其他東西來幫助成爲你的指路明燈。所以，你提到的這個問題實際上是一系列昂貴的實驗，它們只是在你能想象到的最細粒度上昂貴地運行就像教科書一樣，它就像是一個故事的一部分，爲評估地象徵性做貢獻。
主持人：你認爲目前的模型在什麼水平？我認爲，微軟已經推出了一大批合作試點項目，試圖幫助終端用戶使用你的產品等等。另一方面，我看到很多公司都在嘗試建立能夠自主行動的代理。現在，這些模型的預期性能範圍很廣。你認爲我們在哪裏，在未來幾年內將處於什麼位置？
Kevin Scott：我認爲這是一個非常好的問題。你知道，甚至有一個哲學觀點認爲每個人的工作都會被AI所取代，之所以給AI“副駕駛”的名號，是因爲我們希望至少鼓勵微軟內部正在構建這些東西的每個人思考：我如何才能幫助那些正在從事某種形式的認知工作的人，讓他們能夠增強他們的認知能力。
所以，我們想建立的是一個系統，而不是替代性技術。好消息是，當你把範圍縮小到一個領域時，也更容易思考如何從粗略的前沿模型能力轉變爲有用的工具。因此，我認爲這是一條合理的部署路徑。我們已經有一些合作試點項目，現在已經有了真正的市場牽引力，很多人都在日常使用。
並且實際上，副駕能做的工作越籠統，就讓它越難取代你自主採取高精度行動，特別是當你知道它在代表你做什麼的時候。一旦它出現一大堆錯誤，用戶的第一反應就是“這行不通”，“我好長一段時間都不會再試了”，這樣的錯誤比比皆是。這意味着你又要針對用例進行優化，而不是超級寬泛的東西。因此，我們更希望在推出之前，它就已經非常好了。
主持人：每個人都以同樣的方式開始玩OpenAI，然後也許他們開始使用一些其他專有的基礎模型，這些模型結合了一些開源模型，也許他們有一些自己的東西。那裏有一個向量數據庫。從架構的角度來看，感覺人們傾向於走一段不完全相同的旅程。但在12或18個月後，我們從他們那裏聽到的是，有一種巨大的八二法則在起作用——你可以非常快速和有效地自動化大部分任務，但最後一英里，最後百分之幾，難以讓你真正信任它。
是的，對於許多任務來說，這似乎是相當難以捉摸的。所以我非常好奇的一件事是，基礎模型本身何時變得足夠好，以消除最後的2%？
Kevin Scott：我認爲，在一段時間內，這兩者都會存在。我知道你們可能會問這個問題，不管別人怎麼看，我們在擴大規模的同時沒有看到邊際收益的遞減，我也一直試着讓大家去理解這點。實際上，我們有一個衡量參數，但每隔幾年才能對進行一次採樣，因爲建造超級計算機和在其上訓練模型都需要一段時間。
下個模型正在路上，我不能告訴你什麼時候，也不能準確預測它會有多好，但它幾乎肯定會更好，可以解決那些你會覺得“哦，我的上帝，這個有點太貴了”或“這太容易崩了”的問題，所有這些都會變得更好，並且變得更便宜、更耐用，讓更復雜的事情成爲可能，在每一代模型更迭中，這樣的故事一直在上演。
我們甚至在微軟內部都在思考這個問題，我們自己的開發人員在開發這些人工智能產品時可能會犯的一個錯誤就是，他們認爲解決我的問題的唯一方法就是，我必須去利用當前的前沿技術，並用一大堆東西來補充它。但你也確實必須這麼做，但在架構上要非常小心，當你這麼做的時候，它並不會阻止你在下一個樣本到來的時候採取下一個樣本。
所以，大家一心想的是架構好這些應用，當新的好東西來臨時，你可以去把它應用上。我認爲這是我們一直在反覆錘鍊的部分。
讓我們內部很頭疼的一件事是，公司內部有一些團隊在看到前沿模型後會說，天哪，我們不可能在這上面部署產品，因爲這很脆弱，而且太貴了。我給大家的建議是，給自己足夠的靈活性，以便在新的前沿出現時，能迅速適應它。這樣你就能保留你的懷疑精神，相信你所相信的領域。

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

微软CTO：AI大模型的“Scaling Law”还能走多远？

微軟CTO：AI大模型的“Scaling Law”還能走多遠？

風險及免責聲明

聲明