AI大模型站在十字路口，持续突破or陷入低谷？

2024-09-21 14:25:52 来源：

当普通人被AI轰炸的已经疲劳，应用落地也没有惊人地突破，AI大模型的发展似乎已经进入瓶颈期。

在云栖大会之前，业界弥漫着对AI的唱衰，似乎又到了一个历史的转折点。如2017年上一代深度学*AI一样，在经历了行业高光时刻后，大模型似乎进入了漫长的技术积累和落地应用阶段。

但AI大模型发展真的放缓了吗？

“技术的进步速度依然很快”、“落地中没觉得太多困难，反而全是机会”。在两天的交流中，大模型创业公司、云厂商、AI企业服务公司，行业里实打实做业务的所有公司都对光锥智能表达着，对AI前景的一片乐观。

“o1的推理能力确实上了一个很大台阶。”阶跃星辰创始人姜大昕在2024云栖大会上说道，“o1也第一次证明大语言模型可以拥有人脑慢思考能力，也带来 Law的新方向。”

这也就意味着，随着 o1模型的发布，生成式AI从原本的预训练时代，迈入大规模推理时代。

不过，AI仍处于早期的发展阶段。

“如今我们还处于L2的发展早期，但AI仍在加速发展中，未来18个月甚至有可能出现L4级的突破 ——现在业界的对AI未来的整体预测，都过于保守了。”生数科技首席科学家朱军则如此说道。

阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭在2024云栖大会上也表示：“过去22个月，AI发展速度超过任何历史时期，但我们依然还处于AGI变革的早期。生成式AI最大的想象力，绝不是在手机屏幕上做一两个新的超级app，而是接管数字世界，改变物理世界。”

阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭

无疑，当前AI大模型的发展已经进入转折点，而未来18个月，也将是决定我们能否迈向AGI时代的关键。

大模型迈入推理时代

技术仍在大爆炸

类似于自动驾驶系统分级一样，此前也将最终抵达AGI终点，划分了五大等级：

L1：聊天机器人，具有对话能力的AI。L2：推理者，像人类一样能够解决问题的AI。L3：智能体，不仅能思考，还可以采取行动的AI系统。L4：创新者，能够协助发明创造的AI。L5：组织者，可以完成组织工作的AI。

以GPT为代表的大语言模型属于L1阶段，而以o1为标志，则开启了L2推理时代。

背后的逻辑在于，GPT的训练方式为 Next Token ，即预测接下来会出现的token是什么，即使GPT4能够把复杂的问题拆解成多个步骤再分布解决，但其还是属于一种直线型思维，没有反向推理、思考能力。

所以，GPT只能够实现类似于人脑中系统1的思考方式。这是我们的“快速思考”系统，更多依赖于人类身体的条件反射能力，而不是思考能力。

而o1则采用了强化学*的训练框架，这就使大模型具备了思考能力，也就是系统2，其与系统1最大的区别，就在于系统2能够探索不同的路径，并自我反思、纠错，不断试错，直到找到一个正确途径。

“这次的o1，是把以前的模仿学*和强化学*结合起来了，使得一个模型有了人脑系统1和系统2的能力，意义非常大。”姜大昕如此说道。

他也表示：“o1并没有到一个很成熟阶段，只是开端，实际上给我们找到了一条上限很高的路，能够不断走下去。”

业内也有观点认为，o1则暂时扭转了大模型已没有进步空间论调，为大模型 “泡沫” 续命。毕竟，此前大模型训练已经陷入原有 Law的瓶颈，模型参数规模扩大后，性能提升逐渐放缓。

不过，在姜大昕、杨植麟、朱军等人看来，过去18个月中，大模型技术迭代并不慢，仍处于加速发展期。

“从广泛的角度来说，大家可能没感知到。单从技术来说，现在技术发展曲线是越来越陡峭的。” 生数科技首席科学家朱军如此说道。

一方面，从大模型数量角度来看，现在每个月都会有新的模型、新的产品、新的应用涌现出来。

在2月发布了Sora，5月发布了GPT-4o，上周发布的o1等，其对手有系列，谷歌有系列、LLaMA的系列等。

姜大昕表示：“原本一家独大，今年也逐渐变成了群雄并起，你追我赶的局面，各家都在提速。”

另一方面，从大模型能力的角度来看，从单一模型，到多模态融合，从多模态理解到多模态生成，从模仿学*再到强化学*，可以看到大模型的能力正在纵向（理解多维物理世界）和横向（思考能力，即智商）双向发展。

在GPT-4o发布之前，有单独的视觉理解模型GPT4V、视觉生成模型Sora、声音模型等，而随着GPT-4o发布，原本这些孤立的模型则全部被融合到一起。

为什么融合这件事非常重要？

“因为我们物理世界本身就是一个多模的世界，所以多模融合一定是有助于大模型更好的去为物理世界建模，能够更好的模拟世界。”姜大昕说道。

多模态融合能够让大模型更好的理解多模态的物理世界，o1的强化学*则可以让大模型能够自主思考物理世界中的事物发展逻辑。

姜大昕还提到，智驾是一个非常有代表性的从数字世界走向物理世界真实应用场景。特斯拉FSD V12的意义，不仅在于智驾本身，可以认为是为将来智能设备如何与大模型结合，更好的探索物理世界指明一个方向。

朱军还提到，大模型技术加速发展背后最核心的原因，则在于大家对这种路线的认知和准备上，达到了比较好的程度，“在物理条件上，比如像云基础设施、计算资源的准备都比较充分，不像刚出来时，大家更多是不知所措。”

要想富，先修路。AI大模型的加速发展，也离不开AI基础设施的快速迭代，以阿里云为代表的云厂商们，则在其中扮演着日益重要的角色。

“AI计算正加速演进，成为计算体系的主导。”吴泳铭说道，“在新增算力市场上，超过50%新需求由AI驱动产生，AI算力需求已占据主流地位。”

所有行业，都需要性能更强、规模更大、更适应AI需求的基础设施。

在此次云栖大会上，阿里云在底层基础设施层面，也进行了全系列产品家族升级。全面重构底层硬件、计算、存储、网络、数据库、大数据，并与AI场景有机适配、融合，加速模型的开发和应用。

AI基础设施的完善，无疑为大模型技术的升级迭代提供了强有力的支撑。

但就像行业广为流传的“无法落地的技术没有价值”，如何推动大模型真正的落地应用，也是摆在当前行业中的一大难题。

大模型落地应用的

工具链已成熟

大模型技术浪潮，往往会带动整个产业链向前发展的浪潮，大模型的打造只是起点，把技术落地到产业场景，创造价值才是目标。

在朱军看来，现在大模型所有的落地应用最后都指向两个方向：

一个是面向C端消费者，提供娱乐化的数字内容和工具；

一个是面向B端企业，为行业发展降本增效，提升社会生产力水平。

不过，相比于C端，“B端应用目前相对明确，许多大模型已在多个场景中广泛应用，几乎覆盖所有行业。”此前智源研究院院长王仲远如此说道。

但是，于企业而言，其需要大模型能够在实际场景中真正解决某个问题，而不是在100个场景中解决70%-80%的问题。现阶段企业对大模型的诉求更加务实，不仅关注模型技术的领先性，也要看如何融合到业务场景，如何降本增效解决实际问题。

那么，如何帮助企业打破大模型技术落地障碍？

链接大模型技术和上层应用的中间件，即一套大模型时代的原生工具链的成熟，则成为关键。

在中间工具链层，大概可以分为两类玩家：

一类是以阿里云、腾讯云等为代表的云厂商们，这些云厂商们则构建了从PaaS，到MaaS，再到SaaS的全栈式体系化工具链能力。

阿里云底层基础大模型包含了大语言模型通义千问和覆盖文生图、文生视频的场景模型通义万象，在两个模型基础上，在延伸出其他模型产品，用户可以按需使用。

阿里云的MaaS服务平台百炼，则为开发者和企业提供一站式AI大模型开发工具，包括完整的模型服务工具和全链路应用开发套件，并预置丰富的能力插件，提供API及SDK等便捷的集成方式，高效完成大模型应用构建。

魔搭社区则汇聚了业内领先的大模型产品，能够让开发者一站式调用自己想要的模型。阿里云还为用户和企业提供可以开箱即用的模型应用，包括通义灵码、实时记录、PPT创作、翻译助手等。

“我们希望企业和开发者能以最低的成本做AI、用AI，让所有人都能用上最先进的大模型。”阿里云CTO周靖人表示。

其他云厂商与阿里云在整体工具链架构上相差不大，同样都能够为开发者和企业提供大而全的工具链平台，而这也是云厂商们的优势。

另一类，则是面向不同领域细分的玩家，比如专注于数据库的、做合成数据平台的51Sim，做物理AI训练平台的松应科技、面向游戏赛道的巨人网络等。

这些玩家聚焦在某一细分市场中，并为该市场领域的用户提供成熟的平台工具链产品。

比如在数据领域，大模型的发展离不开高质量的数据，但是真实数据的绝对量又是相对较少的。近两年来合成数据也正逐渐成为行业发展的重点趋势之一。

此次云栖大会上，专注于合成数据平台的51Sim也进行了相关技术展示，其已经构建起了大量高质量的合成数据集及针对3D数据生产的工具链，并已实现量产落地，帮助传统行业进行数字化转型的也致力于有效服务AI大模型训练。

值得一提的是，在算力层面，除了云厂商们之外，还有一批创企聚焦于AI Infra赛道，要做算力的“卖铲人”。

无问芯穹的业务是以大模型能效优化工具包为核心，向下联动多家国产芯片公司，向上服务大模型算法企业（通过智算云服务、智算一体机等方式），协同算力、算法、生态，推动行业大模型的高效落地。

算力、算法和数据，是AI大模型发展的基础。在这三大领域，除了云厂商们之外，也都存在不同企业，做小而精的工具链平台，前后两者则共同为大模型的落地应用，提供了成熟工具链，也让大模型落地变得更加顺畅。

大模型落地应用的PMF

“我们现在仍处于产业发展的早期阶段，其中一个特点就是技术驱动产品的比例会更高。”月之暗面创始人杨植麟说道，“所以很多时候，产品开发其实是在观察当前技术发展，尽量把它的价值最大化。”

而随着o1的发布，强化学*的训练模式，无疑也将会给产品应用带来新的范式。

杨植麟也表示，产品形态上也将会发生变化，“引入这种思考范式后，AI可能能够执行分钟、小时甚至天级别的任务，产品形态会更接近人或“助理”的概念。”

事实上，目前AI大模型落地应用的逻辑，还是以TPF（技术/产品契合度）为主，而不是以PMF（产品/市场契合度）为主。

不过，随着大模型技术的快速迭代，技术的可用性也大幅提升，大模型已经具备了文本、语音、视觉的多模态能力，能够开始完成复杂指令。

未来以PMF为主的大模型新应用趋势，也将逐渐成为主流，而只有真正的基于市场需求，才能够创造出真正的杀手级应用。

在此趋势下，面向人形机器人、教育、汽车、制造、交通等多个领域，多项基于大模型最新应用加速落地应用。在目前大模型落地应用的方式上，则大概有创作搭档、效率工具、专业助手、拟人交互等4大类。

比如在汽车领域，为了解决人类驾驶的双手，智能驾驶技术飞速发展，“端到端”大模型是当下备受关注的自动驾驶解决方案。

“之前的自动驾驶技术，是靠人来写算法规则，几十万行代码，仍然无法穷尽所有的驾驶场景。采用‘端到端’大模型技术训练后，AI模型可直接学*海量人类驾驶视觉数据。”吴泳铭表示。

大模型加持下，人形机器人拥有了聪慧的“大脑”、敏捷的“小脑”、灵活的“肢体”。“我们研究了人形机器人的操作大模型，基于语言和视觉信号的输入，使得人形机器人有了举一反三的能力，可以只需要少量数据就能学会相关技能。”清华大学交叉信息研究院助理教授、星动纪元创始人陈建宇说。

在教育领域，大模型成熟前，人类历史上所有技术都无法实现类老师的一对一辅导。随着大模型技术发展，在2024云栖大会上，精准学布全球首个超拟人一对一AI老师。

“它就像你花200-300元\小时请的一对一私人老师一样，能有规划、有体系地对孩子进行一对一学*辅导，而且AI老师还能运用不同的教学技巧，实时调整教学内容，帮助学生养成好的学**惯。”精准学集团创始人&CEO杨仁斌如此说道。

“超拟人一对一AI老师”的诞生意味着大模型从千篇一律的“AI做题工具”真正进化到普适化的教学应用场景，开始成为一个“体系化的教学辅导老师”。

事实上，从聊天机器人，到AI搜索，再到AI视频生成，大模型的落地应用可以说引发了一个又一个行业热潮，但回归到真实用户体验上，却又是“没那么好用”。

归根结底，还是目前大模型技术发展尚属于早期阶段，技术推动产品发展，而不是技术成熟后，由市场需求推动产品。

不过， AI具备创造能力、帮助人类解决复杂问题的路径，已经清晰可见，也打开了AI在各行业场景中广泛应用的可能性。

“今天o1出来以后，把强化学*又泛化到了更高的阶段，AI的能力上限也变得更高了，这其中将会存在这大量的机会。”姜大昕也如此说道。

面向未来“因为现在整个加速发展，很多时候我们预测通常会过于保守。我预想未来18个月可能比较令人兴奋的一个进展，我希望看到L3已经基本上实现。”朱军如此说道。

吴泳铭也表示，“AI驱动的数字世界连接着具备AI能力的物理世界，将会大幅提升整个世界的生产力，对物理世界的运行效率产生*性的影响。”

标签：

资讯

娱乐

汽车

房产

旅游

生活

AI大模型站在十字路口，持续突破or陷入低谷？