2023-06-26 11:15

当大模型与机器人相结合,能否从相互促进走向如虎添翼?

当前国际竞争中以制造业为主,国际市场上售卖的商品大部分是Made in China。根据2015年国务院公布的《中国制造2025》计划书,基本方针以创新驱动、质量为先、绿色发展、结构优化、人才为本的主轴,提高国家制造业工业基础能力、加强品牌质量、推行绿色制造、调整产业结构、发展服务型制造和生产性服务业、提高国际化发展水平为任务和重点。简而言之就是要从“中国制造”走向“中国智造”。

从“制造”走向“智造”,机器人,AI,AGI,大模型等话题就绕不开。此前连续多年,我国都是全球数一数二的工业机器人市场。从运行原理的角度来说,机器人与AI大同小异,而在大模型相关技术带动下,AI发展到AGI,进而与机器人的结合,或带动机器人的发展也再次引发了业内的新一波讨论。

中国对外出口商品分类色块图

目前外界常说的工业4.0,或第四次工业革命,不仅是要发明新技术,更着重于现有技术、销售与产品体验的相结合,通过工业级AI技术创建具有适应性、资源效率和符合人体工学的智能工厂,并在商业及价值流程中集成客户以及商业伙伴,提供完善的售后服务,其中AI集成系统与物联网,以及大模型等都可以视为技术基础。

最近,阿尔法狗(AlphaGo)的制造商,谷歌DeepMind发表论文Language to Rewards for Robotic Skill Synthesis(《面向机器人技能合成的语言到奖励转换》),其中提到引入一种新范式,通过利用LLM来定义可以优化的奖励参数,以完成各种机器人任务。由于现代大部分机器人行为都依赖硬件条件,并且在LLM训练所需语料库中的代表性不足,因此目前将LLM应用到机器人技术的努力,大多是将LLM视为语义规划器,或依赖人工设计的控制原语来与机器人进行交互。论文链接:https://arxiv.org/abs/2306.08647

前面说过机器人与AI的学习,训练与运行原理大同小异,而且二者间有相互促进共同发展的趋势,与AGI,大模型相结合后的应用领域也非常广泛,可能深刻改变到我们的生活,目前也是很多企业正在发力研究的重点领域。

从广义的角度说,AI与机器人的学习可以统称为“机器学习”,需要人工预先设置函数与奖励机制,随后再进行针对性优化。而在论文《面向机器人技能合成的语言到奖励转换》中,谷歌DeepMind团队利用不同机器人,以及处理不同任务的异质性机器人经验,使其可以快速掌握新技能和运动实体,以改善机器人学习情况。

受近期LLM与多模态、跨模态等AGI大发展的启发,DeepMind团队开发了一种可用于机器人操作的基础AI模型“RoboCat”。该模型是首个能够解决和适应多种任务的模型,并且可搭配不同的真实机器人来完成。根据DeepMind团队官方的说法,RoboCat的灵感来自于团队的另一个AI模型Gato,这是个可用于分析和处理文本、图像和事件的模型。RoboCat的训练数据包括模拟和真实机器人的图像与动作数据,这些数据来自于虚拟环境中的其他机器人控制模型、人类控制的机器人以及RoboCat本身的早期版本。DeepMind表示:“我们证明了一个基本事实,即单一的大型模型可以在多个不同的机器人实体上解决不同的任务,并且可以快速地适应新任务与新实体。”

为了训练RoboCat,DeepMind首先使用人类控制的机械臂,在模拟或真实环境中完成成千上万次演示,并收集了每次演示时机器人对不同环境或任务的数据,例如让机械臂以不同的方式搭积木。接下来要对RoboCat进行微调,在每个任务上都创建一个专门的“衍生”模型,再让它练习数万次。通过利用衍生模型生成的数据和理论演示数据,DeepMind对RoboCat的训练数据集不断扩大,并训练出新版本的RoboCat。在RoboCat的最终版本上,在总共二百多个模拟和真实世界任务上进行训练,并在这些任务的一百多个变体上进行了测试。DeepMind表示,经过几个小时的观察,收集了成千上万次人类控制的演示后,RoboCat学会了操作不同类型的机械臂。虽然它已经在四种有两爪臂的机器人上进行了训练,但RoboCat同样能适应一种更复杂的,有三指夹具和两倍可控输入的机械臂,只是目前这种机械表的泛用性不如两爪臂更高。

至此也不难发现,DeepMind对RoboCat的训练过程,与OpenAI对GPT系列的训练过程颇为相似,都是先训练一个基础模型,再在此基础上微调出其他各种变形,以适应不同的环境和任务,因此这也可以说明AI与机器人在很多领域的原理都是相似甚至相同的。但是正如有批评者说ChatGPT的本质是“电子鹦鹉”一样,RoboCat也不是完美无缺的。

在DeepMind的测试中团队就发现,RoboCat在不同任务上的成功率差异明显,从最低的七分之一到最高的99%都可能出现。而且这还是在训练了上千次的情况下,如果减少训练次数,成功率肯定更低。不过,DeepMind也声称RoboCat在某些特定情况下只需训练一百次即可学会处理新任务,这可能是在经过一定量的学习后激活了它的“涌现”能力,或者是自动微调到之前处理过的任务模型上,并且可以生成更多数据来自主提高。DeepMind的未来目标是减少RoboCat完成新任务所需的训练次数,甚至是压缩到十次以内即可学会处理新任务。若果真如此,则大模型应用在机器人上的成本将很快降低,应用到各行各业也可能不再遥不可及。

本文链接:https://www.aixinzhijie.com/media/6823706
转载请注明文章出处

评论
登录 账号发表你的看法,还没有账号?立即免费 注册
下载
分享
收藏
阅读
评论
点赞
上一篇
下一篇