写点什么

Perplexity CEO 专访:AI 浏览器大战、挑战谷歌以及广告模式的终结

  • 2025-07-23
    浙江
  • 本文字数:13717 字

    阅读完需:约 45 分钟

(采访者: Matthew Berman)

很多人想通过在自己的聊天机器人上堆砌更多功能来试图超越 ChatGPT,但他们完全没抓住重点。聊天界面的归属权之争已经结束,赢家已定。 

——Perplexity CEO Aravind Srinivas

Matthew Berman (MB):是什么促使您构建自己的网页浏览器?

Aravind Srinivas (AS):我想说,这个想法的起源是... 最终大多数用户查询都会通过浏览器上的搜索框进行。这甚至远在我们考虑代理(agents)或其他任何东西之前。如今世界上大多数搜索查询的入口点是什么?大概是每天大约 150 亿次。这就是谷歌目前的查询量。我估计其中很大一部分,可能 70%到 80%(具体数字我不确定),流量都流经 Chrome、Safari 或谷歌浏览器上的搜索框(或 URL 栏)。

MB:对,地址栏。


AS:它被称为多功能地址栏(Omnibox)。这里甚至有个历史原因说明谷歌当初为什么要做谷歌工具栏(现在已不存在,因为它已整合成一个搜索栏)。过去,浏览器会有一个 URL 框,然后在书签栏下方有一个谷歌工具栏,让你可以在任何页面上直接搜索谷歌,因为那时认为 URL 栏只应用于导航(输入 URL),而搜索是分开的。现在这种区分不存在了,你可以把所有东西都输入到一个框里,所以叫“多功能地址栏”(Omnibox)... 推出谷歌工具栏让谷歌的流量增加了 5 倍之类,这帮助他们赚取更多广告收入,他们可以付钱给其他桌面软件客户端,让它们强行在本地浏览器上安装谷歌工具栏。这样,即使他们不用付钱给微软,只要有人安装了其他桌面客户端,他们就能把谷歌工具栏推送到 IE 上,获得大量流量。


谷歌工具栏对谷歌就是如此重要。有趣的是,负责工具栏工作的人是桑达尔·皮查伊(Sundar Pichai)。有个历史时刻,微软推送了一个 IE 更新补丁,目的就是移除谷歌工具栏,保留 MSN 之类的。谷歌当时慌了,急忙与所有 OEM 厂商达成协议,保留没有这个补丁的旧版 IE。这都是桑达尔做的,就是那时他们意识到:必须打造自己的浏览器,不能受制于微软。

MB:我之前不知道这事。

AS:是的,谷歌从未公开承认过这事,但我认为很多前谷歌员工都记录过。类似的事件也发生在我们身上... 我们做过一个 Chrome 扩展,可以将 Perplexity 设为默认搜索引擎。我自己就遇到过:在 Chrome 更新后,它突然就没了。我会去 Chrome 商店看这个扩展怎么了,显示“此扩展因本次更新被自动卸载,因为它可能窃取您的搜索数据之类”,各种随机的理由。然后它就不能按我们想要的方式工作了。我们还有一个侧边栏扩展(不是显式的侧边栏),让你可以就页面内容提问,但我们无法实现所有想做的功能。


所以,很明显,在某个时刻我们需要自己的客户端,掌控自己的命运。但这对我们这样的公司来说是个巨大的分心,我们本应专注于核心产品。很多人把搜索整合进自己的 AI 里,所以你必须改进自己的搜索服务,以免变得无关紧要。而浏览器本身就是一个需要大量投入、耗时数月的项目。为什么还要做它?很多人劝我不要做。但对我来说,关键点是:你能从进攻和防守两方面,而不仅仅是防守侧,来做这个决定。


到目前为止我说的都是防守。进攻则是:有些事情你只能在浏览器上做,其他地方做不了。这就是查询(Query)、AI 和搜索的下一个方向:代理(Agents)。第一个真正的代理产品其实是 Deep Research(我们能进行网络研究并做事),后来我们做了 Labs(实际上可以构建仪表板、网站、分析以及许多 Web 应用)。我们已经开始看到这些推理模型的能力:它们能认真思考 10 分钟,做出需要你花几个小时的东西。想象一下,把这种能力用于日常浏览任务,从不同标签页中提取上下文信息,比如对你的 Slack、Notion 或 Google Docs 进行深度研究,处理你的 100 封邮件,查看你的日历并调整会议安排——所有这些个人或行政助理会为你做的事情。


如果你是小企业主,比较商品价格并为你的商品定价,这能让你获得套利空间(相比花 5-10 小时做这事的人,或雇一个小团队全职做这个),或者根据人们在 Reddit 上的评论定制你的营销信息。这些事情都会花费你大量时间,无法用我们传统的方法可靠地完美爬取网络信息来完成。而拥有打开标签页、按需研究、提取必要信息,并将所有这些编排成用户可用的输出(去控制标签页完成任务)的能力,我们认为这只有在我们完全拥有客户端并以最优雅的方式集成 AI 时才能实现。因此,打造浏览器既是防守也是进攻的理由。这就是我们在去年年底决定开始做这个的原因,花了我们大约 8 个月时间才发布。


这个时间线相当疯狂,从零到发布只用了 8 个月。当然,我得承认,肯定有人在你的评论区说:“哦,这只是 Chromium 的分支,他们不是从头构建的。”是的,它是基于 Chromium 的分支,但话说回来,所有东西不都是基于 Linux 的分支?我们都是在巨人的肩膀上,尊重谷歌开源 Chromium 库的工作。我们在其上构建,并希望也能贡献其中。我们不只是消费者... 实际上,我们在司法部对谷歌的诉讼中作证... OpenAI 曾推动从谷歌收购 Chrome,我们当时论证谷歌不应该被拆分,Chrome 应该留在谷歌内部,原因之一就是我们认为谷歌一直是开源(Open Source)的良好管理者,让 OpenAI(与开源相反)拥有 Chromium 毫无意义... 我们认为我们必须赢得运营 Chromium 或 Chrome 的权利,为数十亿人提供服务是项巨大的工作。所以我们肯定是在 Chromium 之上构建的,这大大加快了开发时间线。但仅就基本浏览功能(可靠工作、导入登录信息、完成所有基本任务)所需的质量测试和 Bug 修复,工作量仍然巨大。


我们不仅做了这些,还确保了代理功能在一定程度上运行良好,让人们感到惊艳。这就是我对这次发布感到非常自豪的原因(只用了 8 个月)。我仍不能说它已完成,我们需要确保它能每天为一百万人稳定工作,然后才能扩展。所以还有很多基础设施工作要做。但我对目前的起点非常满意。

MB:我第一次安装时... 首先,我们在录制前我就说过,过程完全无缝,拿到了我所有的书签和认证信息... 当我开始使用代理时,我注意到一些与使用托管在云端的代理环境的不同之处。在那种环境里,环境在云端生成,你每次都得从头开始... 但在 Comet 里,我已经登录了。而且当我在任务中途觉得“哦,现在该让我的代理接手了”,这种体验在完全托管的版本中我认为是不可能的。

AS:是的,我认为没人会想要一个完全托管在别人服务器上的客户端版本,这风险极高。

MB:为什么这么说?为什么你不想让登录版本的客户端在第三方应用或别人的服务器上?

AS:这是个巨大的安全风险。你必须确保他们删除了 Cookie 或访问令牌(OAuth tokens)。使用 Comet 时你不用担心这些,因为一切都存在你的客户端上。基本上,我们不需要在我们的服务器上保存你登录状态的 Amazon、Uber、Gmail、Google Calendar 等任何你日常使用的服务版本。这是我们的运作方式与 OpenAI 试图用 Operator(代理)做法的关键区别。Operator 试图在服务器端保留所有东西,试图以 Headless 方式完成所有操作,要求你... 然后他们会存储访问令牌或持久 Cookie,这不是让用户确信安全的好方法。


因此,浏览器本质上让你在两方面获胜:一是它提供了客户端和服务器端架构的混合体。你的所有登录信息可以留在客户端。所有第三方服务的登录状态可以留在客户端。所有这些数据都存在于你的客户端,我们不必获取任何数据。当你提示(Prompt)我们的 Comet 代理或助手为你执行某项任务时,它只会从你浏览器上打开的标签页中提取与该特定提示相关的信息,解析屏幕并完成任务。任务的智能来自服务器端,即运行在云端的模型,因为这些模型太强大,目前无法本地运行。如果你想删除这些查询,你可以去 Perplexity 删除它们,或者你想在隐身模式下运行(我们支持),我们甚至不会存储这些提示或中间思维链(Chain of Thought)。一切都保持安全。这样我们才能真正帮助你确保所有信息都属于你,确保我们能利用服务器端的前沿智能,但只在需要时将其应用于你的数据,永远不需要在我们的服务器上保持你的登录状态。这与 OpenAI 试图在服务器上保持你登录状态的做法相比是非常好的设置。


另一个我想说的是多功能地址栏(Omnibox)。如果你试图争论“为什么我需要浏览器?它全是遗留产品。给我个聊天窗口,我跟它说话,它就能为我做所有事。”我认为人们并没有真正理解 AI 还没有准备好以 100%的可靠性完全自主地完成所有事情。我仍然不会信任 Comet 去准确处理 Perplexity 的财务记账。我们有很多现金,我不会信任它去登录摩根士丹利或摩根大通(他们登录系统本身就很复杂)。所以你要么只能去浏览器做这些事... 你希望在一个环境里完成所有工作,这就是浏览器为你提供的。多功能地址栏(Omnibox)本来就是你输入大部分东西的地方。所以如果我能直接在那里帮助你就很棒,或者在你访问的任何网页上,我都能在你身边与你共同浏览(Co-browse)。这非常强大,而且我也能为你完成任务。这就是为什么我们觉得这个方案非常合理。另一种方法是将你锁定在一个完全不同 UI 的桌面应用中,试图在那里构建这些流式 UI,代理体验会很差劲,无法真正完成任务。这正是人们对 Operator 失去信心的原因。更原生的体验效果会好很多。我们可以看看 HTML5 与原生应用的历史,很多情况下原生体验最终胜出。


MB:所以,你描述的这一切本质上是在让 Perplexity 脱离对谷歌 Chrome 的依赖。如果由此推断,Perplexity 未来是否会考虑甚至构建一个操作系统(我知道你发推提到过 OS + AI),或者设备?你对此的愿景是什么?

AS:我们对制造设备不感兴趣。我认为这需要极大的投入,而我们公司目前没有任何拥有深厚硬件专业知识的人,而且今天去做这个也会分散我们的注意力。操作系统(OS)比我想象的要容易实现得多,尤其是在做了浏览器之后。我想说的是,你必须赢得做某件事的权利。我们做了一个相当好的搜索产品。我们彻底重新定义了搜索,以至于其他所有聊天机器人都抄袭了我们。我们甚至在像 GPT-3 这样的模型出现之前就做了第一个多步推理搜索(我们当时是拼凑出来的),这成为了现在研究代理(Research Agents)的蓝图:流式展示思维链(Chain of Thought)、中间步骤,所有相关的用户体验(UX)都是 Perplexity 首创的。所以我们在使用规模上达到了一定水平,虽然不是 ChatGPT 级别的规模,但就用户留存而言,我们可能是第二常用的 AI 聊天机器人。我会说 Gemini 的用户数可能比我们多,但如果你看移动端的留存率,其实很差。所以在真正被人们使用的应用方面,尤其在信息检索方面,我们始终稳居 ChatGPT 之后的前列。因此,我们赢得了构建下一个大东西的权利。


很多人想通过在自己的聊天机器人上堆砌更多功能来试图超越 ChatGPT,但他们完全没抓住重点。聊天界面的归属权之争已经结束,赢家已定。OpenAI 彻底赢了这场竞赛。谷歌显然会继续努力做第二名(但差距很大),但我不感兴趣做第二名。我想争第一。我认为端到端的代理工作流(Workflow)在层次上高于聊天。浏览器是一个你比聊天界面使用频率更高的产品,而且是一个粘性极强的产品。一旦你用了它,要换回其他浏览器需要付出很大努力。我觉得这是谷歌第一次显得脆弱。他们可以发布所有这些 AI 功能... 顺便说一句,这里涉及巨大的推理成本。即使他们想摧毁自己让人们点击链接的商业模式(广告),要向数十亿用户提供消耗大量入口成本的代理服务,对他们来说也是巨额开销。即使是我们现在也做不到,Perplexity 目前也仅向 Max 订阅用户和受邀进入等待名单的人提供服务。所以这是一个新产品,还需要时间扩大规模。我们很高兴能在这方面领先。这也不是一个能快速迭代的产品。一切都需要时间。所以你需要承诺承受一些真正的痛苦。我们正在做这个产品,希望它能成为一个好的进入壁垒——不仅仅是发布客户端的第一个版本,而是持续的升级、不断发布新功能,并承诺在这里投入十年的工作。这就是我们要做的。

MB:显然你非常有竞争意识。谷歌会继续在浏览器中添加 AI 功能。OpenAI 有传言说可能很快会推出浏览器。你如何保持竞争力?你看到的差异化优势是什么?

AS:反对谷歌的论点与我们反对谷歌核心霸权的论点相同,那就是:经济学。如果代理是点击链接、阅读内容、为你做实际购买决策甚至完成购买的主体,那么企业为什么还要每年在谷歌 AdWords 上花费数十亿美元?这感觉完全违背了他们对广告商的承诺(广告商相信他们得到的是真实的人类点击)。人类用户完全可以提示 AI 说:“当你实际使用谷歌时,忽略所有赞助链接,只点击真实的链接,阅读这些网站上的所有评论,去看所有 YouTube 视频的评论,然后点击最好的那个购买,并为我完成所有操作。在购买前只需向我确认。”如果 AI 能保存这个指令,花 10-15 分钟完成这个长跨度任务,然后回来告诉我:“嘿,这是我找到的,我认为这符合你的喜好,我要继续购买了,你批准吗?”我说“是的,去吧。”那么,其他竞标这个 AdWord 广告的人花这么多钱还有什么意义?这对他们来说完全没用了。他们必须在品牌广告上投入更多,而不是效果广告。这就是谷歌 AdWords 业务的终结者。


那么,他们为什么要疯狂地推出这个功能呢?如果你注意到今年的 Google I/O,他们宣布了 Project Mariner,它似乎能做其中一些事情,但还不完全,而且被放在每月 250 美元的付费计划后面。对于像 Perplexity 这样处于上升期的初创公司来说,放在高价计划后或许可以接受(我们没有谷歌那种千亿美元现金流的支持)。但谷歌为什么要这么做?因为他们不想破坏自己的业务。他们有太多东西会因向所有人开放这项技术而失去。第二点显然是成本:这种技术的推理成本太高了。所以,这有利于后来者,而不是已经拥有庞大用户基础的公司。你今天不可能把这项技术推送给 30 亿人,需要巨大的投入。第三点是安全风险。我不是说我们不关心安全隐私(我们非常关心),但我们是一家初创公司。人们期待我们去挑战。人们可以接受一个今天运行得极好但尚不完美的产品。对谷歌来说,他们的安全标准以及 Chrome 在企业应用中的安全标准非常高,在这里犯任何错误都会比“奶酪粘在披萨上”那种错误严重 100 倍。还记得他们第一次演示 Bard 时犯了个实时错误,谷歌股价就下跌了 7%之类的吗?如果你的核心资产(搜索业务的神圣核心——多功能地址栏)上出现错误,导致人们转向 Safari 或其他不一定急于快速推出 AI 的浏览器,这会让你损失惨重。此外,显然还有官僚主义:做 AI 的是一拨人,运行浏览器的是另一拨人,做广告的又是另一拨人,让他们所有人都同意一个发布计划需要好几个月的工作。我们觉得这个时间窗口对我们来说足够推出所有这些功能,聚集初始核心用户,并打造一个更好的产品。

MB:我们来谈谈 AI 驱动的网页浏览体验。我第一次使用 Comet 时,开始瞥见未来人类网页浏览可能的样子。看起来人类和实际互联网之间似乎有某种脱钩,现在中间会有一个代理。这是你的意图吗?是愿景吗?尤其是随着 AI 产生大量内容导致噪音信号比越来越差,也许我消费互联网信息的唯一方式就是让一个代理挡在我前面。这是你更长远的愿景吗?

AS:我希望网络不会变得那么糟糕,以至于大部分内容都是 AI 垃圾和废话。但今天对我来说感觉已经是这样了。每当我在 X 上发推,现在有大量回复是机器人。我不断把它们标记为垃圾或机器人,要对抗它似乎非常困难。所以,是的,这绝对是 Comet 的一个绝佳用例:比如“去读这篇文章”或“去读这些推文给我,过滤掉所有看起来像 AI 和垃圾的内容,只提取有用的信息,按我想要的格式总结好,托管在我的本地客户端上,我只需阅读它”。所以你可以构建你自己想读的 X 版本,你自己想读的 LinkedIn 版本。比如你有大量人发来好友请求,你没时间一一处理,你只需说:“筛选出至少有 1 个共同好友的请求,我不想接受那些我根本不认识的人的请求。”(这实际上是我用 Comet 的一个真实用例,很棒对吧?)或者你举办一个活动,有 200 人想参加,你只需说:“按这个标准筛选,去 LinkedIn 上查查他们是否来自知名品牌,这些是我想要的品牌,然后先接受这些人的请求,给他们发邮件说他们入选了。”想想这原本会花费你或你团队多少小时无聊的任务。

MB:绝对的。

AS:没错。这就是我们要追求的东西。我们希望能增加... 按你的说法,如果噪音信号比因为 AI 而随时间恶化,我们希望 Comet 是一种对抗方式:每个人都有自己的个人 AI 来过滤垃圾信息,只给他们有用的信号。

MB:我想谈谈你们选择集成到 Perplexity 中的模型。你们已经支持了一些模型。你最近在 X 上发帖说:“Kimi 模型在内部评估(Internal Evals)中表现不错。我们很可能很快会开始对其进行后训练(Post-Training)。”两个问题:你们如何选择集成到 Perplexity 的模型?那种高水平的后训练是什么样的?你们如何让一个模型真正适合 Perplexity?

AS:好问题。我们内部有一个基准测试(Benchmark),我们称之为 PPLX Bench。这是一个我们不断增加新提示的基准。每当有人在 X 上报告 Bug,或者直接从产品、Discord、Reddit 等渠道报告 Bug,我们有太多渠道收集 Bug 了。我们不会立即去修复单个 Bug,不像 X AI 那样只是改改提示词来修 Bug。我们反而会把它添加到我们的评估集(Eval Set)里。我们会尝试批量修复一堆 Bug,可能是通过修改提示词,也可能是通过后训练,然后在基准测试集上评估差距。所以基准测试集会不断扩展到真正对我们产品和用户重要的提示词上,这为我们在提示词版本控制或后训练方式上所做的任何更改提供了基本事实信号,以及我们如何运行评估来判断后训练是否成功。


因此,每当有新模型发布时,我们不必只看学术基准测试,我们可以看它在我们内部评估上的得分,这些评估跨越了众多不同的垂直领域或使用场景。一旦模型表现相当好,任何模型提供商都很难过度拟合我们的基准,因为我们没有公开版本。他们可能过度拟合了学术基准(通过挖掘更多类似训练集的提示词),即使我们的评估集是私有的,他们也无法为 Perplexity 专门挖掘,因为那是真实用户的提示词。我认为这很有帮助。我们做后训练的方式是:我们对一批我们目前处理得不好的提示词进行采样,同时也采一批模型必须擅长的通用提示词,我们将所有这些结合进行后训练。我们同时做监督微调(SFT, Supervised Fine-Tuning)和基于人类反馈的强化学习(RHF, Reinforcement Learning from Human Feedback)。在 RHF 中,我们使用 DeepSeek 设计的 GRPO 算法(GRPO Algorithm)... 目前我们所有的后训练都是在 DeepSeek 模型上完成的(我认为 Kimi 肯定会挑战它)。我们也有阿里巴巴通义千问(Alibaba Qwen)模型的小型微调版本,并将其用于许多分类器(Classifiers)


所以有很多不同的模型,不仅仅是一个核心聊天模型。有时对于一个提示词,你需要分类它是否需要你的个人数据?是否需要生成金融 UI?是否需要图表?是否需要体育卡片?是否是购物查询?是否应该为你查询的不同手表渲染结构化卡片?每次你问 Perplexity 查询时,可能有 20 个不同的模型在运行。即使你只选择了一个模型,其他模型也在运行... 你选择的最佳模型是那个实际总结报告、编排(Orchestrate)各种调用的模型,它本身并不能完成所有工作。这不是难事,每个人都在这么做。OpenAI 在做,Anthropic 也在做,因为每次你在 Claude 上问东西时,他们也要决定是否搜索网页,这只是一个分类器(Classifier)。这就是为什么 AI 的胜利者将是那些能够很好地进行上下文工程(Context Engineering)的人,他们能汇集所有相关上下文,协调所有相关工具,并将其打包成一个很棒的用户工作流(Workflow)。模型本身肯定会有帮助,毫无疑问。智能在其中发挥了很大魔力。没有像 GPT-3.5 或 Sonnet 4 这样的模型,很难做到我们做的很多事情。但我也预计,无论今天的前沿是什么,至少一年后它将成为商品。

MB:我们来稍微谈谈这个,因为我想知道,Perplexity 是否觉得需要与前沿模型提供商竞争?为了获得那额外的 5%智能,你可能要花费数十亿美元。你的想法是?

AS:不,甚至不是钱的问题。很多人认为我们不懂如何训练模型,这不是事实。我们当然有做这方面工作的 LLM 专业知识。但这不仅仅是发布一个模型一次就完事了。Mistral 曾经做过一次,但今天没人谈论他们的模型了。为什么?因为你必须持续不断地推出模型。这是一场永无止境的旅程。直到有人通过某种方式实现了通用人工智能(AGI)、超级智能(Super Intelligence),或者不管它意味着什么(没人真正知道),但在有人实现那个目标(并获得递归自我改进循环 Recursive Self-Improvement Loop,遥遥领先于其他人)之前,你必须停留在那个竞赛中:在少数几个排行榜和基准测试上不断超越别人。如果你做不到,最好的研究人员就会去能实现这点的实验室工作,或者被愿意花 1 亿美元挖他们的人挖走。你必须持续建设你的计算集群(Clusters),必须为两年后做规划,建立拥有数十万 GPU 的集群,购买大量能源(这些东西耗能巨大),建造自己的数据中心。


你必须成为那样的公司。这不是你公司里的一个研究团队去训练一个模型,发布出来,庆祝一周,然后 6 个月后就变得无关紧要了。我对这个不感兴趣。因此,训练真正对你的产品和用户重要的模型对我们来说非常关键。现在有两件事我们关心:一是极其出色的总结能力(Summarization),带有引用(Referencing)、无幻觉(Hallucinations)、准确性(Accuracy)和良好的答案格式(Format)。Sonnet 模型已经做得很好(我们称之为 Sonar 模型)。实际上,即使你只是选择“最佳”,我们的大多数查询都流向 Sonar 模型。现在我们想训练真正擅长控制浏览器的模型(比如点击标签页)。

MB:你们今天用什么模型做这个?

AS:我们目前还没有自己的内部模型来做这个。我们使用自己的内部模型进行上下文打包、总结和一些数据转换,但关于做什么动作(Actions)的决策... 这是一个非常有价值的事情。我预计像 Mistral 或能在本地运行的模型很快就能很好地完成这些任务。我们想去训练这类模型。就像我们能够训练出非常擅长总结、引用和对话式搜索的模型一样,我非常有信心我们能利用在那里的专业知识,训练出非常擅长控制浏览器标签页的模型。它不必极其庞大,但也不能太狭隘。它需要具备这些优秀模型所拥有的通用性和推理能力,这将是模型的基本智商,但它需要专门优化,以便足够快地去控制浏览器。


所以,无论你现在给 Comet 什么任务,需要 4-5 分钟完成,我们唯一能让它快到 1 分钟(实现真正魔法)的方法,就是训练我们自己的模型,让它足够小,我们可以编写自己的推理内核使其运行非常快,托管在用户设备上... 本地运行将是极其惊人的。我甚至不确定 MacBook 的算力是否足够强大到让你做到这点,但如果可能的话,那将是可能的。微软正在为他们的部分笔记本电脑做 NPU,MacBook 有 M1 芯片。我认为如果我们能在一年内实现这点,它不仅给你速度,还给你安全隐私保证——你甚至不用担心服务器端存了什么。一切都可以留在本地(On-Device)。这才是真正特别的地方。


所以我们必须朝着那个未来努力。今天这还不可能。甚至还没有一个达到 GPT-4 Mini 或 GPT-3.5 Mini 质量的开源模型。我觉得正在接近,比如他们的 Kimi 模型是 1400 亿参数,但它还不能在本地运行。DeepSeek 的模型是 670 亿(6.7B)参数,它仍然无法在本地高效运行。我觉得你可以用两台强大的 MacBook 来托管 DeepSeek,但我想要的是那种不会耗尽电池、仍能运行得像 GPT-3.5 那么智能、并且本地运行的模型。感觉离拥有那种能力、那种大小、还能高效运行的模型还很远。但它终将会发生。这就是关键。


你为什么要赌这不会发生?算法上,一种叫做知识蒸馏(Distillation)的技术是有效的。它不仅对监督学习(Supervised Learning)有效(即直接克隆另一个模型的输出),对强化学习(Reinforcement Learning)也有效——你可以确保策略(Policy,即做决策的模型)在概率分布上等同于一个更聪明模型的策略。所以,你为什么要赌这不会发生?为什么要赌开源跟不上?你不应该赌这个。我认为差距会拉长,不再是在 3 个月内就有开源模型跟上,可能需要 6 个月到一年。而且看起来中国实验室现在也在构建这些开源模型。谁落后谁就构建开源模型,这就是为什么 Meta 也开源了。如果他们领先了,他们就不会开源了。这很正常。

MB:显然,如果你落后了,摧毁市场的一种方式就是免费把它放出来。

AS:我不认为有人是... 我只是从实际出发。有一种开源的原教旨主义观点(Dogmatic View),以及宣称要做开源的美德信号(Virtue Signaling),但我感觉这都是出于便利(Convenience)才做的事。意思就是:我落后了,现在唯一能吸引人们注意力的方法就是开源我的模型。中国也在做同样的事,他们落后了,唯一能获得世界关注的方法就是开源他们的模型,这反过来吸引了优秀人才,帮助他们最终超越最好的模型,同时在这个过程中也占据了开发者心智份额(Developer Mindshare),这也有助于提升你的产品品牌。


如果很多开发者基于它构建应用,你的品牌会比现在强大得多,人们也会去用你的 App。DeepSeek 正在展示这一点。所以,我觉得这是做开源的更务实的理由。否则,谁会花 1000 亿美元然后免费送人,让别人用它来构建自己的 App?一旦他们领先了,动机就不那么充分了。他们会以某种方式收取许可费。哦,如果你用户数达到一定规模,你就不能用它了(他们已经在这么做了)。不管怎样。我不清楚是否有人真正致力于开源,但我感觉总会有一个玩家能通过开源某些东西获得最大利益,并持续开源,这将有利于像我们这样的应用层公司去使用它,在我们的数据上进行后训练,让我们的东西变得非常好。这就像谁最落后,同时又有最大的现金储备,谁就会投资开源,并最终将智能的价格拉低到接近零。

MB:我想谈谈 Comet 和 Perplexity 在隐私方面的问题。你之前被断章取义了... 你提到 Comet 会追踪用户在其上所做的一切,以便提供高度个性化的广告。请澄清一下:Comet 追踪什么?你们对投放广告的计划是什么?

AS:那是我在《Technology Brothers》播客上做的一次采访。他们问我一个假设性问题:“现在 AI 领域的每个人都在试图通过订阅(Subscriptions)赚钱,似乎没人尝试广告(Ads)。那么,广告在 AI 中真正可行的世界是什么样的?”于是,我回答了这个问题,然后他们只摘取了那个回答(一个假设性场景),说我想做广告。让我明确地说:我正在积极争取一个我们不必做广告的未来。如果每个人都得做广告,谷歌将永远赢下去。如果 AI 中新的赚钱方式又是和过去一样,仅仅针对关键词或提示词投放广告,他们会赢。他们拥有所有的广告网络(Ad Network),这基本上就是个黑手党行业,你甚至不想去挑战那里的现有巨头。


因此,我们正在努力创造一个未来:我们能真正通过代理为你创造价值,这个代理为你完成工作,你只需像雇佣一个人那样支付代理费用,付订阅费(Subscription Fee)或按使用付费(Usage-Based Fee),比如按完成任务付费(Per Task Completed)或按几乎完成的工作付费。我们有很多想法来建立一个更基于结果(Outcomes)或使用量(Usage)的业务模式,同时加上类似 Slack 那样的订阅费(Retainer Fee)来使用所有代理。如果我们能通过节省你数小时的繁琐工作来为你的生活提供价值,我觉得这是比创建广告更好的模式。当然,也许平均每用户收入(ARPU)永远比不上广告,但我不在乎。即使我们达到 1 亿用户,ARPU 只有每年 50 或 100 美元,那也非常可观了。


对 Perplexity 来说,每年 50 到 100 亿美元的收入,从我今天的立场来看,已经是惊人的成就了。这将使我们成为一家价值数百亿美元的公司,我们可以建立其他业务,比如 API。我们可以为其他人构建第一方应用(First-Party Apps)提供搜索或浏览基础设施。我们可以在通过 Perplexity 进行的交易中抽成,比如代理为你购买了某样东西,无论是供应商还是用户都给我们一部分佣金,几乎像房地产经纪人那样(买卖双方代理都收费)。这些都是可能的。我很满意一个我们每年赚几百亿美元收入(而不是像谷歌那样每年 2000 亿)的结果。

MB:但世界上有相当大一部分人口根本负担不起任何费用。我认为这是 Meta 和谷歌做广告的一个重要原因,因为他们可以...

AS:我不知道这是否属实。我曾经认为是,但现在不确定了。我要给 OpenAI 很多赞誉,他们向世界展示了:你可以达到年收入 100 亿美元(2024 年目标),其中大部分只是来自人们付费使用 ChatGPT。即使在像印度这样的国家,也有人付费使用像 ChatGPT、Perplexity、Cursor、Claude(尤其是 Claude Code)这样的工具。我面试过一些工程候选人,他们每月为 Cursor 支付 1000 美元,抱歉,是 Claude Code?对。因为它实际上为他们节省了大量时间,他们可以去陪伴家人和孩子。否则,他们只能坐在那里在紧迫的截止日期前编码。它不会给他们那种... 所以,如果你认为你的家庭时间值那么多钱,你就会愿意付钱,对吧?

MB:这是个很好的表述方式。

AS:是的。如果你认为能多陪陪所爱的人,或者能帮你每年多休一个假,然后你在工作中表现出色,获得晋升,这远超过你在 AI 工具上的投入。人们将开始不再把 AI 看作“我是在为 Netflix 或 Spotify 付费吗?”,而更多是“我是否更看重我的生活,为了长远能更轻松地获得金钱而进行投资?”就像你为什么要付钱给财务顾问帮你投资?比如你赚了些钱,你会付钱给别人给你投资建议?或者你付给帮你找公寓的房产中介多少钱?你会付他们很多钱。你只是不去想它,因为社会就是这样构建的。AI 是新的,这里还没有成型的结构性要素(Structural Elements)。所以一切都感觉是新的。你试图用现有的心智模型去套用它,所以你立刻把它看作订阅服务。你甚至想过你一个月在亚马逊上订购多少次东西吗?没有,对吧?你只是买了 Prime 会员。我不认为每个人都那么频繁地看 Netflix,但你只是买了会员。有人在这里每月花 300 美元买 Equinox(高端健身房)会员,我甚至不认为他们经常去健身房。想想看,对吧?你其实在很多东西上花了很多钱。你本可以在家买个咖啡机而不去星巴克。

MB:好的。所以,显然没有立即投放广告的计划,可能长期也没有投放广告的计划。那追踪部分呢?关于哪些信息被追踪,你愿意分享什么?

AS:我们会让人们选择不向我们的服务器发送任何数据。在客户端(Client Side)完全不提取提示所需的信息是不可能的。我们不会获取你的登录信息、密码、信用卡信息——所有这些都留在客户端。你在第三方服务器上的所有信息,在客户端上就停留在那里。比如你说“给我 Slack 上未读信息”,未读信息需要被模型总结,这个信息会在某一刻进入服务器,但如果你愿意,你可以删除它。你只需说“别存储这些,甚至别存储我的提示词”,我们有一个零保留政策(Zero Retention Policy)。即使你说“我甚至不想你拥有这个提示词,把它删掉”,你可以直接在隐身模式下浏览,就完成了。如果你不想让服务知道,可以关掉它。所以,我们的梦想是把智能也送到你的客户端。这在算法上今天是不可能的。


唯一的方法是发布一个劣质模型,但体验会很差,无法真正工作。我怀疑越来越多的智能会部署到边缘设备(Edge Devices)。这有点像渐进式的过程,不会一蹴而就。我希望如此。我希望能有那种从大型机(Mainframes)到个人电脑(Personal Computing)那样的发展轨迹,智能不必全部囤积在超级计算机和巨型集群中,而是将力量交到人们手中。我希望我们能通过软件构建、编写专门的推理内核、尝试进行知识蒸馏、以及为控制应用和浏览器等训练专门模型等方式,为此做出有意义的贡献。

MB:你提到,如果一个工程师使用代理并获得了很多价值,也许他们能多休一个假,多陪陪家人。但我认为很多人担心 AI 会自动化掉他们的工作,这代表着很多人的身份——他们的工作。你对此有过一些相当强烈的看法。你提到“不幸的是,短期内将会有大量的劳动力被取代”,而 Anthropic 的 CEO Dario Amodei 似乎更悲观。能谈谈这个吗?你看到 AI 是在取代任务(Tasks)、角色(Roles),还是介于两者之间?

AS:AI 肯定会对社会产生这样的影响:那些真正处于使用 AI 前沿的人将比不使用的人更具就业能力。这是必然发生的。每个人忽略的一点不是 AI 与人类之争,而是真正正在发生的事情是:每当有新技术出现时... 但这次技术演进的速度前所未有。所以,即使你去告诉人们:“嘿,你得开始用 AI,你得学会用 AI,通过使用 AI 更快更高效,成为对团队更有用的人。”但人类在适应方面从未如此快速过。我们一直很擅长适应,但这真正在考验我们适应速度的极限,尤其是一项每 3 到 6 个月就演进一次的技术。所以,这确实会给人们带来负担,也许他们就放弃了。也许你围绕当前最先进模型所能构建的教育材料,在 6 个月后就变得无关紧要了。所以听起来你相信这个行业的老生常谈:拥有 AI 的人将取代没有 AI 的人。AI 本身不会取代你。


但我感觉,这不是简单地告诉人们“去用 AI”就能解决的。我只是觉得人们要保持与时俱进需要付出巨大努力。因此,有些人可能会因此失去工作,因为这可能超出了他们学习的极限。我希望我们能继续教育他们,分享用例。他们可以看 YouTube 视频学怎么用,可以在 Twitter、LinkedIn 上学东西,但这还不够。让我承认,这不够。更多的创业者需要涌现出来创造新的就业机会,因为每家公司需要的人都会变少。那些失业的人要么最终自己创业并利用 AI,要么他们学会使用 AI 并加入需要招聘一些人的新公司。所以,将会有一个暂时性的阶段,发生这种取代和转变。在这个阶段,你会看到一些人陷入困境,这无需粉饰。我不是在说 Dario 所说的极端情况(整个社会都一团糟),我也不是在说 Sundar 所说的极其乌托邦的情况(他总说过去看到 YouTube 创作者之类的新工作被创造出来)。这不一样。这不是一个平台转换。这本质上是将认知技能放入一个 API 中。


MB:我几周前采访过 Box 的 CEO Aaron Levie,他认为随着人工智能变得越来越好、人们用得越来越多,公司实际需要的人不会减少。他特别提到 Box:“好吧,如果我有一支团队使用人工智能效率极高,我难道不应该首先投资他们、扩大团队,因为他们获得了超高杠杆吗?”你怎么看?


AS:我认为这是一个很好的长期论点。我相信它。但这个论点的缺陷在于,它假设总会有大量懂得如何使用 AI 的人供应。我只是说,作为一个社会,我们的适应速度不会那么快。主要不是因为我们自身的局限,而是因为技术发展的速度超过了我们通常的适应速度。这需要我们付出更多努力才能跟上时代。比如,你甚至知道 GPT-4 和 GPT-3.5 的区别吗?可能你知道,因为你用这个。普通人甚至不知道。大多数人还在用 GPT-3.5 作为默认模型。现在浏览代理(Browsing Agents)要来了,然后在某个时候它会使用你的电脑,它会填表。显然有些形式的劳动力将不再需要。我希望人们尽力而为。我只能说这些。我希望人们尽力而为。别掉以轻心。少花时间在 Instagram 上刷屏,多花时间使用 AI。不是因为我们想要你的使用量,而是因为这是你在新社会中增加价值的方式。

MB:Aravind,非常感谢你和我交谈。我很感激。太棒了。AS:谢谢。

发布于: 3 小时前阅读数: 2
用户头像

经百万用户验证的AI就绪数据基础设施提供商 2024-06-14 加入

以一份数据为基础,提供原生稳定、极致性价比、按需付费的交互式分析、实时分析以及ETL服务。助力传统数据平台升级为 AI-ready 数据平台,促进 AI 在企业严谨生产场景的落地,提高准确性、数据洞察力、决策效率。

评论

发布
暂无评论
Perplexity CEO专访:AI浏览器大战、挑战谷歌以及广告模式的终结_openai_AI数据云Relyt_InfoQ写作社区