AI大模型站在十字路口,持续突破or陷入低谷?

2024-09-21 14:25:52 来源:

当普通人被AI轰炸的已经疲劳,应用落地也没有惊人地突破,AI大模型的发展似乎已经进入瓶颈期。

在云栖大会之前,业界弥漫着对AI的唱衰,似乎又到了一个历史的转折点。如2017年上一代深度学*AI一样,在经历了行业高光时刻后,大模型似乎进入了漫长的技术积累和落地应用阶段。

但AI大模型发展真的放缓了吗?

“技术的进步速度依然很快”、“落地中没觉得太多困难,反而全是机会”。在两天的交流中,大模型创业公司、云厂商、AI企业服务公司,行业里实打实做业务的所有公司都对光锥智能表达着,对AI前景的一片乐观。

“o1的推理能力确实上了一个很大台阶。”阶跃星辰创始人姜大昕在2024云栖大会上说道,“o1也第一次证明大语言模型可以拥有人脑慢思考能力,同时也带来 Law的新方向。”

这也就意味着,随着 o1模型的发布,生成式AI从原本的预训练时代,迈入大规模推理时代。

不过,AI仍处于早期的发展阶段。

“如今我们还处于L2的发展早期,但AI仍在加速发展中,未来18个月甚至有可能出现L4级的突破 ——现在业界的对AI未来的整体预测,都过于保守了。”生数科技首席科学家朱军则如此说道。

阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭在2024云栖大会上也表示:“过去22个月,AI发展速度超过任何历史时期,但我们依然还处于AGI变革的早期。 生成式AI最大的想象力,绝不是在手机屏幕上做一两个新的超级app,而是接管数字世界,改变物理世界。”

阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭

无疑,当前AI大模型的发展已经进入转折点,而未来18个月,也将是决定我们能否迈向AGI时代的关键。

大模型迈入推理时代

技术仍在大爆炸

类似于自动驾驶系统分级一样,此前也将最终抵达AGI终点,划分了五大等级:

L1:聊天机器人,具有对话能力的AI。L2:推理者,像人类一样能够解决问题的AI。L3:智能体,不仅能思考,还可以采取行动的AI系统。L4:创新者,能够协助发明创造的AI。L5:组织者,可以完成组织工作的AI。

其中,以GPT为代表的大语言模型属于L1阶段,而以o1为标志,则开启了L2推理时代。

背后的逻辑在于,GPT的训练方式为 Next Token ,即预测接下来会出现的token是什么,即使GPT4能够把复杂的问题拆解成多个步骤再分布解决,但其还是属于一种直线型思维,没有反向推理、思考能力。

所以,GPT只能够实现类似于人脑中系统1的思考方式。这是我们的“快速思考”系统,更多依赖于人类身体的条件反射能力,而不是思考能力。

而o1则采用了强化学*的训练框架,这就使大模型具备了思考能力,也就是系统2,其与系统1最大的区别,就在于系统2能够探索不同的路径,并自我反思、纠错,然后不断试错,直到找到一个正确途径。

“这次的o1,是把以前的模仿学*和强化学*结合起来了,使得一个模型同时有了人脑系统1和系统2的能力,意义非常大。”姜大昕如此说道。

同时,他也表示:“o1并没有到一个很成熟阶段,只是开端,实际上给我们找到了一条上限很高的路,能够不断走下去。”

业内也有观点认为,o1则暂时扭转了大模型已没有进步空间论调,为大模型 “泡沫” 续命。毕竟,此前大模型训练已经陷入原有 Law的瓶颈,模型参数规模扩大后,性能提升逐渐放缓。

不过,在姜大昕、杨植麟、朱军等人看来,过去18个月中,大模型技术迭代并不慢,仍处于加速发展期。

“从广泛的角度来说,大家可能没感知到。 单从技术来说,现在技术发展曲线是越来越陡峭的。” 生数科技首席科学家朱军如此说道。

一方面,从大模型数量角度来看,现在每个月都会有新的模型、新的产品、新的应用涌现出来。

在2月发布了Sora,5月发布了GPT-4o,上周发布的o1等,其对手有系列,谷歌有系列、LLaMA的系列等。

姜大昕表示:“原本一家独大,今年也逐渐变成了群雄并起,你追我赶的局面,各家都在提速。”

另一方面,从大模型能力的角度来看,从单一模型,到多模态融合,从多模态理解到多模态生成,从模仿学*再到强化学*,可以看到大模型的能力正在纵向(理解多维物理世界)和横向(思考能力,即智商)双向发展。

在GPT-4o发布之前,有单独的视觉理解模型GPT4V、视觉生成模型Sora、声音模型等,而随着GPT-4o发布,原本这些孤立的模型则全部被融合到一起。

为什么融合这件事非常重要?

“因为我们物理世界本身就是一个多模的世界,所以多模融合一定是有助于大模型更好的去为物理世界建模,能够更好的模拟世界。”姜大昕说道。

多模态融合能够让大模型更好的理解多模态的物理世界,o1的强化学*则可以让大模型能够自主思考物理世界中的事物发展逻辑。

同时,姜大昕还提到,智驾是一个非常有代表性的从数字世界走向物理世界真实应用场景。 特斯拉FSD V12的意义,不仅在于智驾本身,可以认为是为将来智能设备如何与大模型结合,更好的探索物理世界指明一个方向。

朱军还提到,大模型技术加速发展背后最核心的原因,则在于大家对这种路线的认知和准备上,达到了比较好的程度,“在物理条件上,比如像云基础设施、计算资源的准备都比较充分,不像刚出来时,大家更多是不知所措。”

要想富,先修路。AI大模型的加速发展,也离不开AI基础设施的快速迭代,以阿里云为代表的云厂商们,则在其中扮演着日益重要的角色。

“AI计算正加速演进,成为计算体系的主导。”吴泳铭说道,“在新增算力市场上,超过50%新需求由AI驱动产生,AI算力需求已占据主流地位。”

所有行业,都需要性能更强、规模更大、更适应AI需求的基础设施。

在此次云栖大会上,阿里云在底层基础设施层面,也进行了全系列产品家族升级。全面重构底层硬件、计算、存储、网络、数据库、大数据,并与AI场景有机适配、融合,加速模型的开发和应用。

AI基础设施的完善,无疑为大模型技术的升级迭代提供了强有力的支撑。

但就像行业广为流传的“无法落地的技术没有价值”,如何推动大模型真正的落地应用,也是摆在当前行业中的一大难题。

大模型落地应用的

工具链已成熟

大模型技术浪潮,往往会带动整个产业链向前发展的浪潮,大模型的打造只是起点,把技术落地到产业场景,创造价值才是目标。

在朱军看来,现在大模型所有的落地应用最后都指向两个方向:

一个是面向C端消费者,提供娱乐化的数字内容和工具;

一个是面向B端企业,为行业发展降本增效,提升社会生产力水平。

不过,相比于C端,“B端应用目前相对明确,许多大模型已在多个场景中广泛应用,几乎覆盖所有行业。”此前智源研究院院长王仲远如此说道。

但是,于企业而言,其需要大模型能够在实际场景中真正解决某个问题,而不是在100个场景中解决70%-80%的问题。同时,现阶段企业对大模型的诉求更加务实,不仅关注模型技术的领先性,也要看如何融合到业务场景,如何降本增效解决实际问题。

那么,如何帮助企业打破大模型技术落地障碍?

链接大模型技术和上层应用的中间件,即一套大模型时代的原生工具链的成熟,则成为关键。

在中间工具链层,大概可以分为两类玩家:

一类是以阿里云、腾讯云等为代表的云厂商们,这些云厂商们则构建了从PaaS,到MaaS,再到SaaS的全栈式体系化工具链能力。

阿里云底层基础大模型包含了大语言模型通义千问和覆盖文生图、文生视频的场景模型通义万象,在两个模型基础上,在延伸出其他模型产品,用户可以按需使用。

阿里云的MaaS服务平台百炼,则为开发者和企业提供一站式AI大模型开发工具,包括完整的模型服务工具和全链路应用开发套件,并预置丰富的能力插件,提供API及SDK等便捷的集成方式,高效完成大模型应用构建。

魔搭社区则汇聚了业内领先的大模型产品,能够让开发者一站式调用自己想要的模型。同时,阿里云还为用户和企业提供可以开箱即用的模型应用,包括通义灵码、实时记录、PPT创作、翻译助手等。

“我们希望企业和开发者能以最低的成本做AI、用AI,让所有人都能用上最先进的大模型。”阿里云CTO周靖人表示。

其他云厂商与阿里云在整体工具链架构上相差不大,同样都能够为开发者和企业提供大而全的工具链平台,而这也是云厂商们的优势。

另一类,则是面向不同领域细分的玩家,比如专注于数据库的、做合成数据平台的51Sim,做物理AI训练平台的松应科技、面向游戏赛道的巨人网络等。

这些玩家聚焦在某一细分市场中,并为该市场领域的用户提供成熟的平台工具链产品。

比如在数据领域,大模型的发展离不开高质量的数据,但是真实数据的绝对量又是相对较少的。因此,近两年来合成数据也正逐渐成为行业发展的重点趋势之一。

此次云栖大会上,专注于合成数据平台的51Sim也进行了相关技术展示,其已经构建起了大量高质量的合成数据集及针对3D数据生产的工具链,并已实现量产落地,帮助传统行业进行数字化转型的同时也致力于有效服务AI大模型训练。

值得一提的是,在算力层面,除了云厂商们之外,还有一批创企聚焦于AI Infra赛道,要做算力的“卖铲人”。

无问芯穹的业务是以大模型能效优化工具包为核心,向下联动多家国产芯片公司,向上服务大模型算法企业(通过智算云服务、智算一体机等方式),协同算力、算法、生态,推动行业大模型的高效落地。

算力、算法和数据,是AI大模型发展的基础。在这三大领域,除了云厂商们之外,也都存在不同企业,做小而精的工具链平台,前后两者则共同为大模型的落地应用,提供了成熟工具链,也让大模型落地变得更加顺畅。

大模型落地应用的PMF

“我们现在仍处于产业发展的早期阶段,其中一个特点就是技术驱动产品的比例会更高。”月之暗面创始人杨植麟说道,“因此很多时候,产品开发其实是在观察当前技术发展,然后尽量把它的价值最大化。”

而随着o1的发布,强化学*的训练模式,无疑也将会给产品应用带来新的范式。

杨植麟也表示,产品形态上也将会发生变化,“引入这种思考范式后,AI可能能够执行分钟、小时甚至天级别的任务,产品形态会更接近人或“助理”的概念。”

事实上,目前AI大模型落地应用的逻辑,还是以TPF(技术/产品契合度)为主,而不是以PMF(产品/市场契合度)为主。

不过,随着大模型技术的快速迭代,技术的可用性也大幅提升,大模型已经具备了文本、语音、视觉的多模态能力,能够开始完成复杂指令。

未来以PMF为主的大模型新应用趋势,也将逐渐成为主流,而只有真正的基于市场需求,才能够创造出真正的杀手级应用。

在此趋势下,面向人形机器人、教育、汽车、制造、交通等多个领域,多项基于大模型最新应用加速落地应用。同时,在目前大模型落地应用的方式上,则大概有创作搭档、效率工具、专业助手、拟人交互等4大类。

比如在汽车领域,为了解决人类驾驶的双手,智能驾驶技术飞速发展,“端到端”大模型是当下备受关注的自动驾驶解决方案。

“之前的自动驾驶技术,是靠人来写算法规则,几十万行代码,仍然无法穷尽所有的驾驶场景。采用‘端到端’大模型技术训练后,AI模型可直接学*海量人类驾驶视觉数据。”吴泳铭表示。

大模型加持下,人形机器人拥有了聪慧的“大脑”、敏捷的“小脑”、灵活的“肢体”。“我们研究了人形机器人的操作大模型,基于语言和视觉信号的输入,使得人形机器人有了举一反三的能力,可以只需要少量数据就能学会相关技能。”清华大学交叉信息研究院助理教授、星动纪元创始人陈建宇说。

在教育领域,大模型成熟前,人类历史上所有技术都无法实现类老师的一对一辅导。随着大模型技术发展,在2024云栖大会上,精准学布全球首个超拟人一对一AI老师。

“它就像你花200-300元\小时请的一对一私人老师一样,能有规划、有体系地对孩子进行一对一学*辅导,而且AI老师还能运用不同的教学技巧,实时调整教学内容,帮助学生养成好的学**惯。”精准学集团创始人&CEO杨仁斌如此说道。

“超拟人一对一AI老师”的诞生意味着大模型从千篇一律的“AI做题工具”真正进化到普适化的教学应用场景,开始成为一个“体系化的教学辅导老师”。

事实上,从聊天机器人,到AI搜索,再到AI视频生成,大模型的落地应用可以说引发了一个又一个行业热潮,但回归到真实用户体验上,却又是“没那么好用”。

归根结底,还是目前大模型技术发展尚属于早期阶段,技术推动产品发展,而不是技术成熟后,由市场需求推动产品。

不过, AI具备创造能力、帮助人类解决复杂问题的路径,已经清晰可见,也打开了AI在各行业场景中广泛应用的可能性。

“今天o1出来以后,把强化学*又泛化到了更高的阶段,AI的能力上限也变得更高了,这其中将会存在这大量的机会。”姜大昕也如此说道。

面向未来“因为现在整个加速发展,很多时候我们预测通常会过于保守。我预想未来18个月可能比较令人兴奋的一个进展,我希望看到L3已经基本上实现。”朱军如此说道。

吴泳铭也表示,“AI驱动的数字世界连接着具备AI能力的物理世界,将会大幅提升整个世界的生产力,对物理世界的运行效率产生*性的影响。”

  • 标签:
相关阅读
热门标签