微软最新实验：怎样用 ChatGPT 驱动机器人？

来源：Marktechpost

编译：DeFi之道

图片来源：由 Maze AI 工具生成

像BERT、GPT-3和Codex这样的大型语言模型（LLM）得益于自然语言处理（NLP）技术的巨大进步而成为可能，为一些领域带来了变革。这些模型在文本生成、机器翻译、代码合成等各种应用场景中都表现得异常出色。在这个领域，最近引人关注的OpenAI ChatGPT 是一个生成式文本模型，先进行预训练，然后通过人类反馈进行改进。ChatGPT通过对话形式提供了出色的交互能力，既能进行文本创作，也能撰写代码。而相比之下，早期的模型大多基于单一的提示词生成结果。

ChatGPT 用于机器人科学

与纯文本应用不同，机器人系统必须有能力理解现实世界的物理学、解读周围的环境，并采取现实的行动。在与用户互动时，要实现在真实世界以符合物理学的方式理解和执行命令，就需要一个具备丰富常识的生成式机器人模型和一个复杂的世界模型。这意味着，模型必须破译页面上的文字，并将其转化为行动计划，这些问题超出了语言模型最初设想的范围。

ChatGPT有能力适应各种物理表现形式，通过对话进行闭环推理，并解决机器人技术中的各类零样本（zero-shot）问题。由于机器人技术是一个成熟的学科，有好几个或开源或闭源的编程库存在，可帮助我们设计机器人在认知和行动领域的基本行动（如物体检测和分割、映射、运动规划、控制和抓取）。至于机器人的推理和执行能力，大型语言模型在获得适当提示词的情况下，可以采用那些已预先定义好的机器人编程路径。应用程序编程接口（API）的名称必须准确地反映机器人功能的整体目的和操作。这些术语必须尽可能清晰，以便LLM解释API之间在机器人功能上的联系，并提供预期的结果。

微软的探索

微软自主系统和机器人小组的研究人员揭示了 OpenAI 开发的 ChatGPT 在机器人应用领域的可行性，展示了如何建立提示词并指示 ChatGPT 利用某些机器人编程库来对特定行动功能进行编程。据微软的专家介绍，现代机器人技术依赖于一个闭环体系，在这个体系中，工程师对任务进行编程，监测机器人的行为，再相应地调整编程。

在微软的设想中，ChatGPT 可以将对某项工作的人类语言描述转换成机器人可读的代码。这意味着，非技术用户在这个过程中可以取代工程师的位置，后者的唯一职责也就是用人类语言提供原始任务描述，观察机器人，并用人类语言提供关于机器人行为的反馈，然后 ChatGPT 会将其转化为代码以改善机器人行为。

利用实验方法，微软的研究人员开发了各种应用场景，例如：指引无人机清点货架、机械臂操纵，以及基于API的物体识别和远程搜索。