微软最新实验，用 ChatGPT 驱动机器人

得益于自然语言处理（NLP）技术的巨大进步，GPT系列之类的大语言模型正在开花结果，为一些领域带来了深刻变革。这些模型在文本生成、机器翻译、代码合成等各种应用场景中都表现优秀。OpenAI的ChatGPT是一个生成式文本模型，先进行预训练，然后通过人类反馈进行改进。ChatGPT通过对话形式提供了出色的交互能力，既能进行文本创作，也能撰写代码。现在微软正在设想下一步，用ChatGPT驱动机器人。

图片来源：由无界 AI 生成

微软的探索

据微软介绍，现代机器人技术依赖于一种闭环体系。在这个体系中，先对任务进行编程，同时监测机器人的行为，再相应地调整程序。按照微软的设想，ChatGPT可以将某项工作的人类语言描述转换成机器人可读的代码。这意味着在此过程中，即使是非专业技术用户也可以像专业工程师那样，用人类语言提供原始任务描述，观察机器人行为，并用人类语言提供关于机器人行为的反馈，然后ChatGPT会将其转化为代码以改善机器人行为。

利用实验方法，微软的相关团队开发了各种应用场景，如指引无人机清点超市货架、盘点存货、操作机械臂，以及基于API（应用程序接口）的物体识别和远程操作，如搜索等。

具体应用

为了让ChatGPT可用于机器人级的应用，微软提出三个主要研究领域或方向，这三者共同构成了在机器人技术中采用ChatGPT的核心策略。

1、用户指定ChatGPT应采用的一系列API或功能编码库。

2、根据可访问的API或功能编码，用户描述对工作的预期结果。

3、最后，用户在用模拟器评估ChatGPT撰写的代码后，提供反馈意见。

如果用户对行动结果感到满意，对应的代码可以用来指导机器人。客观来说，此三者有些像“机器学习理论”中的“监督型机器学习”。这也不奇怪，机器人和AI在许多地方都是一样的，有通用型理论也是合情合理。

微软团队用于研究的所有问题和交互模式，都可以在微软向公众发布的一个全新的开源协作平台上查阅。为了让ChatGPT生成的算法通过考验，他们自然也希望纳入机器人模拟和API。

ChatGPT与机器人

与ChatGPT的纯文本应用不同，机器人作为复杂系统，需要有能力理解现实世界的物理学、解读周围的环境，并采取对应的行动。在与用户互动时，要以符合物理学的方式理解和执行命令，就需要兼顾一个具备丰富知识的生成式机器人模型和一个复杂的世界模型。这意味着模型必须能破译文字，并将其转化为实际行动指令，这无疑都已经超出了语言模型最初设想的范围。

ChatGPT有能力适应各种物理表现形式，通过对话进行闭环推理，并解决机器人技术中的各类“零点翻译问题”（Zero-shot，指不借助中间语的直接翻译。如谷歌曾经的翻译系统都依赖英语做中间语，先将源语言翻译为英语，再将英语翻译为目标语）。由于机器人的很多相关技术的成熟度相对更高，有多个开源或闭源的编程库存在，可帮助设计机器人在认知和行动领域的基本行动，如物体检测和分割、映射、运动规划、控制和抓取等。

至于机器人的推理和执行能力，大语言模型在获得适当提示词的情况下，可以采用预置的机器人编程路径，不过API的名称必须准确地反映机器人功能的整体目的和操作。这些术语要尽可能清晰，以便模型解释API之间在机器人功能上的联系，并提供预期的结果。

自2010年，智能手机和移动网络流行以来，曾经风头无两的机器人或多或少的也受到了冲击，毕竟手机比机器人可便宜多了，用起来也更方便。现在机器人的应用正日益精细化，如医用和工业等领域都有相关应用，家用扫地机器人也已走进千家万户，这些都可以视为先进生产力和科技水平的体现。这几年AI正以前所未有的速度进化，时常做出一些引发世人惊呼的行为，虽然对它们而言那不过是本能。当年的“阿尔法狗”（AlphaGo）面对全球一众围棋高手，一路过关斩将，克敌制胜，“人类智慧最后的堡垒”被攻克时的景象，相信很多人至今仍记忆犹新。

然而很多人在惊呼时都有意无意的忽略了两个事实。其一，围棋之所以被称为“人类智慧最后的堡垒”，很大程度上是因为其内在逻辑、推理走法、棋谱规律等都很复杂，且都可能影响到最终结果，对常人而言就是“入门难精通更难”，这与象棋（不论中国象棋或国际象棋）、军棋、将棋等其他棋类运动普遍存在的“入门容易精通难”不同。因此上世纪90年代IBM的“深蓝”就能在国际象棋上战胜顶级高手卡斯帕罗夫，比“阿尔法狗”早二十多年就战胜了人类。这期间还经历过摩尔定律的加持，AI的性能和计算速度突飞猛进，“阿尔法狗”的出现在某种意义上来说更像是科技发展的必然结果。

其二，不论“深蓝”还是“阿尔法狗”，它们都是专家特化型AI，换句话说它们都只会下国际象棋或围棋。从运行逻辑的角度来说，它们要学会新技能就必须换新的数据库，类似手机刷机或电脑重装系统。但即使成功换装，还是没有改变它们只会一种技能的本质。当前的ChatGPT也有差不多的情况，这与预期中的人工智能还差得远。

用ChatGPT驱动机器人是前所未有的大胆设想，或许微软是看中了ChatGPT强大的知识和推理能力，期待用在机器人上能实现1+1>2的效果。微软做得好肯定能引起新的欢呼，做不好无非是给外人来点茶余饭后的谈资。对旁观者而言倒也不失为好消息，毕竟谁不喜欢吃瓜看戏呢？

本文链接：https://www.aixinzhijie.com/article/6807590
转载请注明文章出处