出门问问李志飞：大模子下半场，要找到本身的灵魂｜Z Circle:李壮飞

苏工坊体育

作者

Z Circle是关于人的栏目李壮飞。

人是一切立异的源动力李壮飞。在过去的十二年里，实格不断专注投人，毗连起最真诚、英勇、极具立异精神的人们。我们记录他们的故事和路程，希望与你了解，也等待你的参加。

9 月 16 日，在第二届「AI 新视野，增长新势能」智能新贸易大会上，出门问问开创人兼 CEO 李志飞以《大模子的下半场：Agent、多模态、通用机器人》为主题停止分享李壮飞。

2012 年，李志飞在获实格基金天使投资后，回国创建出门问问李壮飞。现在，出门问问以生成式 AI 和语音交互为核心，为全球多个国度和地域供给 AI 智能硬件、AI 政企办事，以及面向创做者的 AIGC 东西。

以下为李志飞演讲内容，希望对你有所启发，也欢送在评论区和我们交换李壮飞。

来源｜条记侠（ID：Notesman）

整理者｜金木研

各人好李壮飞，我今天禀享的主题是《大模子的下半场：Agent、多模态、通用机器人》

大模子上半场，良多从业者关于手艺、产物以及贸易化做了良多切磋，各类各样的模子也都已经出来了李壮飞。

下半场，各人就要动实格了，所以接下来我分3个部门来讲：Agent；多模态；通用机器人李壮飞。

大模子的上半场

共识极速达成李壮飞，全球开卷

中国所有的人，不论是 CEO 仍是产物司理，都有一种极度的焦虑感，觉得大模子要倾覆本身公司，或者倾覆本身的职业李壮飞。全世界十分卷，连美国那种躺平的国度，良多巨头都十分勤奋在做产物或者转型。

李壮飞我们快速回忆一下大模子开展的时间线：

2020 年 6 月，GPT-3 的呈现是转折点李壮飞。因为在GPT-3 之前，所有的人工智能的手艺都是公用系统或者公用使命的，模子欠亨用。

其时，GPT-3 是第一个让我们觉得它是有可能做成通用人工智能的一个系统李壮飞。我可能是中国最早一批存眷到 GPT-3 的人，其时极客公园采访我时，我就说「GPT-3 是暴力美学的一次成功」。

2022 年 12 月，ChatGPT 发布李壮飞。但其实 GPT-3 跟 ChatGPT 在原理上、在模子构造上，没有任何区别，只不外 GPT-3 强调的是 Few shot，每次你要问 GPT-3 一个问题，你先得举几个例子，然后再去问它谜底。

好比，你要先告诉它「1 + 1 = 2」，再问它 5 + 8 等于几，它才气答复李壮飞。

很显然，那只要硅谷的极客才气去用，通俗人不成能用那么一个系统李壮飞。所以 ChatGPT 做的一个工作就是把 Few shot（小样本）酿成 Zero shot（零样本），你能够间接问它 5+8 等于几，而不消举例子。

通过 Supervised Fine-tuning（监视微调），使得那个模子一会儿从硅谷那种极客的圈子进入到群众李壮飞。那是 ChatGPT 在手艺上更大的一个奉献。

别的，让各人觉得通用人工智能一会儿变得可能了，整个社会对那个工作一会儿热度很高李壮飞。

2023 年 3 月，GPT-4 发布，它让我们看到了 AGI 的火花李壮飞。

GPT-4 演示了多模态，但今天我们也看到 ChatGPT没有在多模态上做出良多工作李壮飞。

但之后发布的 AutoGPT，激发了各人对 Agent 落地的热情李壮飞。因为它能够酿成一个自主规划，自主推理，自主施行使命的一个系统。

2023 年 7 月，呈现了别的一个系统 RT-2李壮飞。

良多人觉得它跟大模子没有什么关系，但我认为那个十分大的一个革命，它让我们看到了大语言模子的跨模态常识迁徙以及通用机器人的可能李壮飞。

那是在手艺层面李壮飞，我们再看看财产层面：

OpenAI 跟 Microsoft 一拍即合，出尽风头，但是我觉得持久来说，那种合做可能纷歧定耐久李壮飞。

在 ChatGPT 之前，我们都觉得 Google 是 AI 的王者李壮飞。但是 ChatGPT 之后，你就觉得 Google 怎么那么不克不及打，完全连自自信心都没有了。之后，我 6 月份又去谷歌聊天，发现他们从头找到了自信心，并且良多产物有了规划。

从合作上，Meta 的人才十分凶猛，但过去几年，扎克伯格陷入在元宇宙的深坑，当 ChatGPT 发布后，立马 All in Llama，成为开源大模子的扛把子李壮飞。

而在中国，各人都晓得就是百模大战，我有一句话叫「一切都是熟悉的配方和味道」李壮飞。

上半场的共识与非共识：规模、开源、通用

接下来我分享几个共识和非共识李壮飞。

1. 超大模子（万亿）VS 通俗大模子（数百亿）：各有任务

我们应该把模子分红两大类，一类是万亿级此外超大模子，一类是数百亿级此外通俗大模子李壮飞。

超大模子的任务是摸索才能天花板，通俗大模子更重要的任务是承载落地李壮飞。

因为万亿级此外模子实正用到推理或者产物里，成本很高，速度也很慢，以至产生智能幻觉李壮飞。

而世界上大部门的创业者，都只能做所谓的大模子，没法做超大规模的模子，因为成本投入太大李壮飞。

2. 开源 VS 闭源大模子：永不完毕的战争

在 2 月份的时候，我们都觉得大模子的壁垒好高李壮飞。若是你能做出一个模子，你在中国就很牛。

但是到 3 月份、4 月份的时候，就有了开源大模子李壮飞。其实，我觉得是因为共识太快了，当所有人、所有公司都涌进那个处所，那种手艺的壁垒很快会被打穿。

所以，有闭源，就一定有开源，性能会竞相追逐，不存在闭源不断碾压开源的可能李壮飞。

但良多人觉得基于开源做模子、做应用李壮飞，就没有壁垒、投入很低？

那完满是错误的认知，无论是用开源，仍是闭源，从零起头做，从才能层面没有绝对性的区别李壮飞。

因为你也要基于开源做预训练、强化进修、inference（推理）优化、清洗数据等等，它只是降低了冷启动的门槛李壮飞。

最初，若是你实的要做一个性能到达业界领先程度的模子，以及应用，仍是需要花良多精神李壮飞。

3. 通用 VS 垂曲大模子：各尽其用

良多人一说大模子，就觉得要超等通用李壮飞。但是到今天去看，第一，良多工作仍是欠亨用。

第二，在现实应用中，你没需要那么通用李壮飞。

好比，你要做一个大模子用来设想芯片，你那个芯片设想的大模子，就完全没需要答复娱乐明星的八卦李壮飞。

说到垂曲，良多人说有垂曲行业大模子李壮飞。但我觉得不存在垂曲行业大模子。

好比金融行业，它的工种长短常分离的，有财政、法务、人事等等，那今天的大模子没法完成所有工种的工做李壮飞。

所以，大模子实正在落地的时候，我们应该想的是取代哪一个具象的工种李壮飞。好比我取代的就是前台讲解员，或者外呼、阐发师。

那才是比力容易落地，投入也比力可控的情况李壮飞。

4. 算力是一种消耗品李壮飞，自己不构成壁垒

中国存在一种对算力的无限崇敬李壮飞。

若是你去跟 OpenAI 的人聊，你说你们到底有什么秘方，为什么做得那么好？他就告诉你说，我们就是规模大李壮飞。

但绝大部门公司在「暴力美学」上走不下去李壮飞，因为一年可能需要 50 亿美金到 100 亿美金的算力投入，你怎么投？

所以说，算力的壁垒，素质上是钱的壁垒李壮飞。

良多投资跟我说某个公司很牛逼，我说为啥牛逼？他说，那个公司能买到显卡李壮飞。

我就觉得很好笑，科技公司的合作力什么时候酿成了能从渠道买到显卡李壮飞。

以至有人说，我看那小我做大模子不靠谱，我说为啥不靠谱？他说，他连显卡的渠道都搞不定李壮飞。

我觉得算力就是一种消耗品，各人仍是要连结理性，不要思维发热就成立一个算力中心，因为你持久运营效率很难超越云巨头李壮飞。

5. 比模子和算力更靠谱的壁垒李壮飞，是数据飞轮

数据飞轮很难，但一旦成立是比模子和算力更靠谱的壁垒李壮飞。但是各人都很容易获取的数据不是壁垒，用户在本身产物中交互沉淀的数据才是壁垒。好比你刷抖音，他会按照你的动做，调整下一次的保举排序。

所以，各人要想法子将数据与本身的产物相连系，那才是数据飞轮的价值李壮飞。

6. 算法架构：要存眷新的架构李壮飞，但不要赌新的架构

现有架构（Transformer+GPT+NTP），良多公司觉得不可，但我觉得短期（三年内）很难有新架构超越现有架构李壮飞。

因为那半年所有的人都围绕那个工具做优化，它的天花板也很高了，你要超越那个已经被优化到极致的架构模子，长短常难的李壮飞。

但持久来说，量变引起量变，新架构超越现有架构是大要率的李壮飞。

ChatGPT 是工业革命级此外改革吗李壮飞？

良多人说 ChatGPT 代表了工业革命的改革李壮飞，各人都想从过去找到一些规律，思虑那个工作到底有多大，对将来的影响是什么样子的？

所以 2 月份的时候，我们十分激进，但是今天再回过来看，可能有些工作是过于乐不雅李壮飞。

我认为 ChatGPT 确实带来了通用人工智能的可能性，但是它要怎么实现，我们仍是不晓得李壮飞。

若是你认为它是一个工业改革的话，势必改革各行各业李壮飞。

但是今天我觉得很大一个问题是如今 ChatGPT 的纯文本以及不成靠性，只合适不是 mission critical（关键使命）的内容创做或泛娱乐应用李壮飞。

我适才说幻觉素质就是智能，若是说你要去掉幻觉，你就不会有智能，所以那是一个悖论，它只能降低，不成能完全把它干掉李壮飞。

所以，若是只是文本以及加上那种幻觉，应用形态长短常有限的李壮飞。

若是你如今每天用大模子就是聊聊天、问问百科，ChatGPT 是没有法子改革各行各业的李壮飞。

若是 ChatGPT 只能文本应用的话，那大要率是一场庞大无比的泡沫李壮飞。

所以，若是实的要改革各行各业，在语言模子根底之上，还要有 Agent 和多模态，那决定了那场革命的实在性李壮飞。

大模子的下半场

RT-2 让李壮飞我们看到通用机器人的希望

2023 年 7 月 28 日，谷歌 DeepMind 颁布发表推出 RT-2：全球第一个控造机器人的视觉 - 语言 - 动做（VLA）模子，机器人也能间接像 ChatGPT 一样把持李壮飞。

好比，你说把草莓放在跟它类似的生果盆子里，它就晓得放在哪个盆子里，它晓得苹果和草莓是两回事李壮飞。

那是一个革命性的工具，它代表了一种大语言模子的常识迁徙的才能，从互联网上学到的常识，能够迁徙到一个十分具象的机器人的动做里李壮飞。

若是你要训练一个机器人系统，你需要专门搜集那个机械操做各类物体的数据，好比说拿起放下那些动做的数据李壮飞。但是，假设它学会了拿苹果，然后换成香蕉，若是你的训练数据里没有那个工具，它可能就不会了。

有了 GPT 以后，因为先有一个语言模子，它已经晓得苹果、梨子、香蕉，即便机器人的训练数据里没看到苹果，但是也能够做那个工作李壮飞。

那就是常识的迁徙，才能能够泛化到新对象、新情况和新使命李壮飞。

并且，RT-2 系列很有意思，它根本上每几个月迭代一次李壮飞。2022 年 12 月发布了 RT-1，2023 年 3 月发布了 PaLM-E，2023 年 7 月发布了 RT-2。

你能够想象，它会像 GPT一样，越来越通用，以至能够有多个机器人协做李壮飞。

Agent李壮飞，全村的希望？

Agent，强调的是具有自主设法，自主规划去完成一个使命李壮飞。我们能够理解成主动驾驶。

前面提到 ChatGPT 最末要产生各行各业的应用的话，必然是要通过 Agent 或者 Copilot 的体例去落地李壮飞。

好比，在场景里面落地，每一个场景都有奇特的工具，那个时候，你那个 Agent 需要有很强的对情况的动态的适配才能李壮飞。

若是不克不及主动适配，每一个情况，每一个场景都要去做定造，贸易形式都是很蹩脚的李壮飞。

但 Agent 能不克不及胜利仍是有良多不确定性，第一，它要求有很强的推理才能、规划才能；第二，它对情况有动态的适配才能李壮飞。

好的方面是，我们人类汗青上没有呈现多 Agent 系统彼此协做李壮飞。

人类是通过协做，使得整个社会高度兴旺李壮飞。AI 也是一样的，当 AI 可以讨论、进化、博弈，那会超越所有人的想象。

适才说 RT-2 看起来是一个机器人，但其实它自己也是个 Agent，因为机器人也是本身去做规划，去做动做，完成使命李壮飞。

所以，原理上一致，东西箱也是一致的，碰到的问题也都是幻觉问题李壮飞。

如今 ChatGPT 就是一个纯文本的应用，通过文本的形式告诉 ChatGPT 那里不可，那里行李壮飞。那些工具都长短常单一的反应，但是实正的物理事务，好比我走到台阶时，我就晓得会塌空，那是情况给我的反应，那我就不克不及再往前走了，不然我会倒下去。那种工具涉及到触觉，它是一个多模态的反应。

其实 AI 跟人是很类似的，无论是输入，仍是输出，实正要落地都是需要多模态的信号才气够做得好李壮飞。

适才屡次提到幻觉，那种多模态的可进修的 Agent 可以对情况主动适配，那可能是处理幻觉的一种体例李壮飞。

多模态是 C 位

在本年 2 月份的时候，我跟良多人聊多模态，其时觉得多模态无关紧要李壮飞。我们觉得语言是一个认知的问题。

今天回过来看，多模态长短常重要的李壮飞。

因为Agent 的输入输出都依赖于多模态，没有多模态，就没有 Agent李壮飞。

多模态是一种 Grounding（根底训练），让语言构建的虚拟世界和物理世界毗连起来，也是接地气的有效路子，能够降低大语言模子的幻觉李壮飞。

大语言模子不但是一个语言模子，更是一个认知模子李壮飞。有了好的认知模子，只要参加少量数据就能有多模态才能（好比视觉、听觉、动做）。所以，大语言模子是智能的核心和根底。

Agent 证了然我们能够将大模子在互联网上学到海量的常识，迁徙到机器人的具象应用里，大幅降低对机器人训练数据的要求，而且契合人类认知习惯，能够更好地认知与完成复杂使命李壮飞。

巨头共识内卷之下李壮飞，创业公司还能怎么玩？

我觉得地道的做模子，在中国会很困难的，不管你的模子多凶猛，几人用，其自己贸易形式仍是比力困难的，可能也没有什么壁垒李壮飞。若是能有本身的应用场景和模子，并构成数据飞轮效应，那是更好的壁垒。

所以李壮飞，要问本身一个思虑问题：我为什么要拥有本身的大模子？

若是你找不到如许的理由，你做模子就是在浪费钱，因为开源的模子可能比你投良多钱做模子训练要好李壮飞。但是若是你能找到一个理由，确实需要有本身的模子，那个是很有价值的。

AIGC 新贸易形式：To PC/To SMB

以前的贸易形式分为两种：To C 和 To B李壮飞。

互联网公司一般是 To C，获取海量流量后通过告白变现，羊毛出在猪身上李壮飞。

AI 公司一般是 To B，办事大客户，良多蜕酿成系统集成商（SI），最末酿成亏钱的高级人力外包李壮飞。

但在大模子时代，会带来两种新的贸易形式：To PC（professional consumer），专业小我；To SMB（small and midsize business），中小型企业李壮飞。

AI 公司能够办事 SMB 或者 PC李壮飞。To PC 能够制止传统 To B 的项目造，也能够制止跟 To C 互联网巨头合作停行增长的流量。

但 To C 需要客单价足够布衣化（年千元或万元级别），产物体验足够闭环简单，实正为用户提拔效率或创收李壮飞。

出门问问围绕内容创做者做了各类各样的 AIGC 应用，无论是配音，仍是写案牍，仍是生成图片、生成视频李壮飞。

好比，AI 配音助手魔音工坊、AI 数字人平台奇奥元、AI 写做助手奇奥文、AI 绘画助手言之画李壮飞。

通过运用那些 AI 东西，以前五六小我用一个礼拜才气做出一个视频，如今一小我 3 个小时就能够做出量量还不错的视频李壮飞。

最初的话

大模子上半场，各人都很慌，每天学那个、学阿谁，没有一个主心的灵魂李壮飞。固然很忙，但其实每天处于一种很慌乱的形态。

下半场李壮飞，良多人需要找到本身的一个灵魂，好比你到底要做什么？你最初希望成立什么样的壁垒？你希望成立什么样的贸易形式？

我的演讲到此完毕，谢谢各人李壮飞。

保举阅读

阅读全文

发布于 2023-12-07 02:20:22

ChatGPT Agent GPT 言模型商业模ChatGPT 商业模李壮飞

分享空间
分享微博
手机扫一扫

海报

上一篇：李壮飞:东京车展｜专访比亚迪李云飞：自主品牌出海需敬畏市场与消费者下一篇：出门问问二度冲刺IPO，半年营收下滑23%，李志飞曾获红杉本钱投资:李壮飞

推荐阅读