当大模型与机器人相结合，能否从相互促进走向如虎添翼？

当前国际竞争中以制造业为主，国际市场上售卖的商品大部分是Made in China。根据2015年国务院公布的《中国制造2025》计划书，基本方针以创新驱动、质量为先、绿色发展、结构优化、人才为本的主轴，提高国家制造业工业基础能力、加强品牌质量、推行绿色制造、调整产业结构、发展服务型制造和生产性服务业、提高国际化发展水平为任务和重点。简而言之就是要从“中国制造”走向“中国智造”。

从“制造”走向“智造”，机器人，AI，AGI，大模型等话题就绕不开。此前连续多年，我国都是全球数一数二的工业机器人市场。从运行原理的角度来说，机器人与AI大同小异，而在大模型相关技术带动下，AI发展到AGI，进而与机器人的结合，或带动机器人的发展也再次引发了业内的新一波讨论。

中国对外出口商品分类色块图

目前外界常说的工业4.0，或第四次工业革命，不仅是要发明新技术，更着重于现有技术、销售与产品体验的相结合，通过工业级AI技术创建具有适应性、资源效率和符合人体工学的智能工厂，并在商业及价值流程中集成客户以及商业伙伴，提供完善的售后服务，其中AI集成系统与物联网，以及大模型等都可以视为技术基础。

最近，阿尔法狗（AlphaGo）的制造商，谷歌DeepMind发表论文Language to Rewards for Robotic Skill Synthesis（《面向机器人技能合成的语言到奖励转换》），其中提到引入一种新范式，通过利用LLM来定义可以优化的奖励参数，以完成各种机器人任务。由于现代大部分机器人行为都依赖硬件条件，并且在LLM训练所需语料库中的代表性不足，因此目前将LLM应用到机器人技术的努力，大多是将LLM视为语义规划器，或依赖人工设计的控制原语来与机器人进行交互。论文链接：https://arxiv.org/abs/2306.08647

前面说过机器人与AI的学习，训练与运行原理大同小异，而且二者间有相互促进共同发展的趋势，与AGI，大模型相结合后的应用领域也非常广泛，可能深刻改变到我们的生活，目前也是很多企业正在发力研究的重点领域。

从广义的角度说，AI与机器人的学习可以统称为“机器学习”，需要人工预先设置函数与奖励机制，随后再进行针对性优化。而在论文《面向机器人技能合成的语言到奖励转换》中，谷歌DeepMind团队利用不同机器人，以及处理不同任务的异质性机器人经验，使其可以快速掌握新技能和运动实体，以改善机器人学习情况。

受近期LLM与多模态、跨模态等AGI大发展的启发，DeepMind团队开发了一种可用于机器人操作的基础AI模型“RoboCat”。该模型是首个能够解决和适应多种任务的模型，并且可搭配不同的真实机器人来完成。根据DeepMind团队官方的说法，RoboCat的灵感来自于团队的另一个AI模型Gato，这是个可用于分析和处理文本、图像和事件的模型。RoboCat的训练数据包括模拟和真实机器人的图像与动作数据，这些数据来自于虚拟环境中的其他机器人控制模型、人类控制的机器人以及RoboCat本身的早期版本。DeepMind表示：“我们证明了一个基本事实，即单一的大型模型可以在多个不同的机器人实体上解决不同的任务，并且可以快速地适应新任务与新实体。”

为了训练RoboCat，DeepMind首先使用人类控制的机械臂，在模拟或真实环境中完成成千上万次演示，并收集了每次演示时机器人对不同环境或任务的数据，例如让机械臂以不同的方式搭积木。接下来要对RoboCat进行微调，在每个任务上都创建一个专门的“衍生”模型，再让它练习数万次。通过利用衍生模型生成的数据和理论演示数据，DeepMind对RoboCat的训练数据集不断扩大，并训练出新版本的RoboCat。在RoboCat的最终版本上，在总共二百多个模拟和真实世界任务上进行训练，并在这些任务的一百多个变体上进行了测试。DeepMind表示，经过几个小时的观察，收集了成千上万次人类控制的演示后，RoboCat学会了操作不同类型的机械臂。虽然它已经在四种有两爪臂的机器人上进行了训练，但RoboCat同样能适应一种更复杂的，有三指夹具和两倍可控输入的机械臂，只是目前这种机械表的泛用性不如两爪臂更高。

至此也不难发现，DeepMind对RoboCat的训练过程，与OpenAI对GPT系列的训练过程颇为相似，都是先训练一个基础模型，再在此基础上微调出其他各种变形，以适应不同的环境和任务，因此这也可以说明AI与机器人在很多领域的原理都是相似甚至相同的。但是正如有批评者说ChatGPT的本质是“电子鹦鹉”一样，RoboCat也不是完美无缺的。

在DeepMind的测试中团队就发现，RoboCat在不同任务上的成功率差异明显，从最低的七分之一到最高的99%都可能出现。而且这还是在训练了上千次的情况下，如果减少训练次数，成功率肯定更低。不过，DeepMind也声称RoboCat在某些特定情况下只需训练一百次即可学会处理新任务，这可能是在经过一定量的学习后激活了它的“涌现”能力，或者是自动微调到之前处理过的任务模型上，并且可以生成更多数据来自主提高。DeepMind的未来目标是减少RoboCat完成新任务所需的训练次数，甚至是压缩到十次以内即可学会处理新任务。若果真如此，则大模型应用在机器人上的成本将很快降低，应用到各行各业也可能不再遥不可及。

本文链接：https://www.aixinzhijie.com/media/6823706
转载请注明文章出处