OpenAI 动作不断，大模型实用化趋势明显，技术落地成关键

2024-09-02 16:29:15 来源：

最近的大模型行业，似乎有一种「暴风雨来临前的平静」。

整个 8 月，连续不断的行动似乎在告诉我们：风向要变了。从发布 Card，开放大模型微调能力，再到针对逻辑能力改进，可个性化训练部署的「草莓」模型，一系列曝光的项目和产品，都显现着实用化的明确目的。

研究员的推文。大模型的领军企业似乎也把技术的落地放在了首位。

大模型的发展正在呈现不平衡的景象：在一边，技术覆盖已有了可观的数字，宣布每周活跃用户量达到两亿，走开源路线的 Meta 则报告 Llama 系列模型下载量接近 3.5 亿；但在另一边，原本预料中对于众多行业的「颠覆」似乎还没有起势。

对于工业落地来说，新技术的应用意味着切实能够带来生产力的提升。各家科技公司已经走到了比拼技术商业化的攻坚阶段，比拼的是谁落地得更快，谁的落地更实用。

就在这波降低技术门槛、优化模型的大潮中，国内的一家公司脱颖而出，它从创立之初就确立了大模型「工业化落地」的方向，并已经取得了一系列成果。

创新奇智的工业大模型，正在快速落地

在工业领域，创新奇智为客户量身打造的智能化数据治理解决方案正在发挥作用。

面向制造业，创新奇智打造出了实用化的设备维护智能体。在与中加特电气的合作中，基于大模型应用及，结合工厂 MES 系统（制造执行系统），创新奇智在生产端打通了设备的维护保养闭环。

使用这一套工具，人们可以通过简单对话的方式实现生产设备数据查询、故障预测、根因分析、设备维修告警、维修方案推荐、维修工单生成等功能，进而执行设备保养维修的全流程智能化维护。

采用大模型智能体方案后，人们可以通过 AI 预防生产故障，减少维修次数，每年可以降低多达 265 万维修成本。因为设备故障检修次数变少，生产效率可以提升 36.3%。通过对数据的根因分析，用户更可以快速找到设备故障的原因，维修响应时间降低了 30%，解决故障的时间从平均 10 小时，降到了 7 小时以内。

除了提升维护效率，在很多行业中，大模型技术也可以帮助人们快速分析数据，辅助进行决策，大大提升数据和信息资产积累的效率。

平安资管拥有庞杂的数据库系统，包含数万张数据表及数十万计的字段，存在大量结构化、非结构化、半结构化数据。面对庞大的数据资产，各表单之间复杂的关系网络，要想用人力进行梳理，就需要耗费大量时间。

人们将所有数据接入到大模型数据管控平台中，通过应用为客户实现数据分析洞察，通过应用为客户实现数据运维洞察，充分解决了以上难题。在实践中，可以帮助用户仅通过对话的方式，即刻查询到所需的指标、表、字段等信息；还可以快速追踪数据的来源和流向，了解数据在各系统之间的流动情况，让数据盘点效率提升了 10 倍。

而可以帮助客户通过对话的方式，即刻生成某项信息报错后的解决方案，还可以快速查询合规要求，生成操作建议，将整体误操作事件降低了 80%。

当前，围绕制造业打造的大模型解决方案通常可分为两类。一类涉及产线运营效率提升，如工业质检；另一类则被称作企业信息智能，信息和知识密度较大，非常适合大模型的应用。

这些领域的数据对于大模型的针对训练来说已经完全可用。随着闭环的形成，新生成的数据反哺并不断提升模型能力，解决方案也在逐渐跑通。

基础能力，不断提升

一系列技术落地的背后，是创新奇智以工业大模型技术平台为基础的产品体系。

2023 年 4 月，奇智孔明推出了首款生成式 AI 产品 —— 奇智孔明，它面向制造业为主的垂直类场景，致力于让不同细分行业都拥有基于自身数据的 AI 生成能力。

今年 3 月，作为其基础的工业大模型 AInno 升级至 2.0 版本，达到 750 亿参数，性能获得了大幅升级。AInno-75B 增加了多模态处理能力，支持输入文本、图像、视频以及工业场景中的行为（）模态，如 CAD 等。

通过引入高参数量大模型 AInno-75B，创新奇智的主推产品、获得了显著的能力提升。

生成式企业私域知识问答应用进一步丰富了多知识库、多文件类型、多内容格式的知识问答能力。在知识库领域完成了一系列创新。通过「片段切分合并」的方式，在人机交流的过程中，知识点的相关性经由大模型技术进行判断，避免了横跨领域时返回内容不完整，整体问答效果提升 28.8%。

现在，支持了直接对扫描版 PDF 文档的识别和问答，可以自动扫描 PDF 文件，并将其中信息直接纳入到知识库当中。

与此创新奇智重点优化了全流程数据计算效率和服务吞吐能力，显著提升了大量文件情境下的问答效果、效率和用户体验。

生成式企业私域数据分析应用则针对客户需求优化了产品体验，支持用户的全流程可介入、可编辑、可确认，确保数据分析结果可靠、可信。该工具进一步优化了 Text-To-SQL、Text-To-Chart 的效果和展示形式，降低了数据分析门槛，并提升了数据分析效率。

在实际的工作流程中，被定位为助手（）级应用。创新奇智 CTO 张发恩表示：「它不是 100% 的 BI 系统，而是作为辅助企业内 BI 报表工作人员的角色，可以帮助人们提升效率。在 AI 的帮助下，很多原来需要写代码的工作流程，现在只需要以对话的方式就可以实现了。」

在大模型的推理效率上，创新奇智通过高效的搜索引擎和 4 比特量化技术大幅降低计算资源需求，实现了 75B 大模型的双卡可推理，满足了大量企业级应用场景的需求。针对众多企业大模型私有化部署的需求，创新奇智还与合作方共同构建了基于国产算力的一体机。

创新奇智还升级、发布了生成式企业私域视觉洞察应用、生成式辅助工业设计应用、工业机器人任务编排应用 Pro 等一系列能力。

切入工业机器人，探索端到端方向

说到工业机器人，创新奇智在这个方向上正进行着最前沿的探索。

等大语言模型的发展，正在为机器人领域掀起一场*，有最先进的大语言模型加持，机器人终于拥有了一颗聪明的大脑。

今年初，斯坦福大学的「炒菜机器人」ALOHA 问世，引发了一片关注。利用新一代技术，机器人似乎已经可以胜任全职管家了。

在斯坦福的工作中，研究者开发了一套系统，用于机器人模仿学*需要全身控制的双臂移动操作任务。它通过一个全身远程操作界面进行有监督的行为克隆收集数据，并在此基础上让机器人进行训练。当面对不同形态的物体时，机器人依然能根据之前的训练数据完成诸如刷碗等基本动作，实现了一定程度的自动化和适应性。

创新奇智正在构建的 Pro 生成式工业机器人调度应用，也使用了相同的思路。在去年基于大模型智能体实现高层次调度编排的基础上，新版本的 Pro 结合了多模态、端到端的 VLA（--）策略模型，持续优化了工业大模型的感知、理解、规划、决策能力，大幅提升了机器人操作的任务泛化性和交互友好性。

Pro 的核心是端到端的 VLA 策略模型，它可以接受图像输入并配合语言指令进行下一步动作的预测。与以 token 形式输出文本内容的大语言模型不同，在 VLA 模型中，算法需要实时处理视觉环境中的动作，快速准确地面对外界做出连续的动作反应。创新奇智的机器人可以保持一秒钟 30Hz 的动作刷新率，确保了行动连贯流畅。

VLA 大模型是一种能够在视觉、语言及动作之间建立联系的强大工具，它可以接收来自多个传感器的数据（例如三个摄像头图像），解读复杂的任务指令，并输出相应的动作，指导机器人执行精确的操作，如调整物体位置等。与传统的机器人相比，VLA 具有更强的理解能力、学*能力和响应速度，适用于需要实时处理复杂情境的任务场景，如工业生产中的质量检测、产品组装等。

在这里，系统采用了云边端协同架构，其中机器人旁的端侧算力负责本地部分数据处理，端侧 VLA 算法进行最终决策，以支持机器人在复杂环境下的自主决策和高效执行。

我们在实验室里看到了 Pro 早期形态的演示。仅通过上百次人类操作的「指导」，收集数据加训练时长不到一个月，实验室里的机器人就已经学会拿起扫帚打扫碎屑：

它也可以识别杯中小球，并将其倒入空杯子：

实现自主学*与行为模仿，标志着机器人在柔韧性和泛化能力上出现了重大突破。未来，我们或许不再需要依赖僵化的编程指令，只需通过接收大量真实操作数据训练视觉大模型，就能让机器人在实际环境中完成更加灵活多样且高效的任务。

这不由得让人想起自动驾驶领域中，基于视觉大模型的端到端方法正在实现的*。端到端的自动驾驶很快就要上路了，我们可以期待机器人领域也会发生同样的事。

不过相比之下，自动驾驶拥有大量现成可用的数据集。为了更好地发展视觉模型驱动的机器人，创新奇智正在构建 Robot 数据集，其中包含丰富的视角数据，如各类动作的全部轨迹信息。工程人员还在不断整合各类开源数据，力求将其打造成为一个领先的工业领域大规模数据集。

随着端到端大模型技术的提升，复杂任务规划与执行算法的发展，新一代机器人或许可以解决工业领域中的一系列手动、劳动问题，尤其是那些无法通过传统自动化技术解决的任务，比如手机装配中的精细操作环节。

拥抱 AI2.0

最新发布的财报显示，创新奇智在技术和产品创新方面保持着高投入：近年来研发支出占营收的比例均保持 25% 以上。从大模型技术落地，再到端到端视觉模型驱动的机器人，创新奇智的一切努力，都是为了冲击 AI 2.0。

如果将 2018-2022 年定义为 AI 的 1.0 时代，这一代的人工智能以卷积神经网络为基础，其表现为能听能看，可以进行判断识别等任务。过去的几年里，人工智能已经带动了很多行业的自动化变革，但在真正的智慧还没有出现。

大模型技术正在将 AI 推动到 2.0 时代，它克服了上一代 AI 单领域、多模型的限制。利用海量数据训练的，具有跨领域知识的基础模型（ Model）能够完成多模态的复杂任务，更能通过微调等方式快速适配专业领域任务，真正能够实现平台化效应。

可以说，在 AI 1.0 的时代，工业视觉的加持让机器睁开了双眼，到了 AI 2.0 时代，机器人的大脑不再需要人类将所有动作编程，每一个都将是由大模型来驱动的。

我们正在见证「AI + 制造」大方向，新趋势的出现。

标签：

资讯

娱乐

汽车

房产

旅游

生活

OpenAI 动作不断，大模型实用化趋势明显，技术落地成关键