返回首页 hi, 欢迎来到机器人在线 请登录/ 免费注册 扫码关注

谷歌将大模型塞进机器人

时间:2022-08-29 来源:机器人在线 阅读:5289

  8月17日,谷歌刚刚宣布了一项重大研究进展:通过结合更强大的人工智能,(AI)大型语言模型,进一步完善机器人“智商”。

  谷歌将大模型插入机器人!工作更快,能理解“话外音”

  研究人员说,这是第一次将大型语言模型集成到机器人中,“这是一个非常不同的范式”。

  就像人类一样,机器人可以响应完整的命令。换句话说,你不再需要像以前那样一步一步地发出一系列简短的指令来指导机器人的每一个动作。

  谷歌研究人员对机器人进行了演示:“我饿了,你能给我点零食吗?”

  然后,机器人在自助餐厅搜索,然后打开一个抽屉,找到一袋薯片给研究人员。

  当然,拿汽水也不在话下。

  谷歌将大模型插入机器人!工作更快,能理解“话外音”▲机器人演示拿起物品的能力

  这是一个雄心勃勃的技术突破,为多用途机器人铺平了道路,使其像以前的清扫机器人、巡逻机器人等单一任务机器人一样容易控制。

  谷歌在周二发表的博客文章中详细介绍了研究进展。结合更复杂的语言模型,机器人执行命令的成功率从61%提高到74%。

  谷歌将大模型插入机器人!工作更快,能理解“话外音”

  项目链接:https://sites.research.google/palm-saycan

  论文链接:https://arxiv.org/pdf/2204.01691.pdf

  第一,用大模型提高理解能力,让机器人不再是“铁憨憨”

  指挥机器人工作并不新奇,但要让机器人理解你的命令背后的意图,有必要测试它“大脑”好不好用。

  例如,当你问机器人:“我洒了饮料,你能帮忙吗?”谷歌机器人可以快速筛出适应指令的适当行动,然后从厨房拿一块清洁海绵。

  但假如你只是惊呼:“完蛋!我的饮料!”所以普通机器人通常没有反应,此时,如果一个智能机器人听到你的声音,主动帮助你清洁,那么它就是一个真正聪明的机器人。

  这些看似简单的感知技能实际上是最具挑战性的任务类型。

  过去,机器人系统只能执行简短、明确的指令,如“拿起一个苹果”,“往前走两步”。

  机器人往往在明确具体任务和奖励下表现好,但在学习和执行多步任务和抽象推理方面遇到困难。

  例如,你问机器人:“我刚锻炼过,能给我一份健康的零食吗?”机器人可能很难理解这句话中微妙表达的区别和微妙。

  谷歌将大模型插入机器人!工作更快,能理解“话外音”▲Everyday机器人给谷歌研究人员送零食(图源:路透社)

  虽然近年来大型语言模型发展迅速,取得了许多令人印象深刻的成果,许多语言模型在特定领域的知识储备远远超过人类,但许多语言模型训练不是基于物理世界数据,通常不与环境直接互动,也不观察其反应结果。

  这可能导致语言模型生成的指令使在现实环境中运行的机器人不合逻辑、不切实际或不安全。

  我们还以刚才提到的问题为例,问机器人:“我洒了饮料,你能帮忙吗?”

  谷歌将大模型插入机器人!工作更快,能理解“话外音”

  经典的OpenAI大模型GPT-提出建议:“您可以尝试使用真空吸尘器。”

  谷歌AI系统LaMDA会回答:“你想让我帮忙找个清洁工具吗?”

  另一个谷歌FLAN语言模型将直接道歉:“对不起,我不是故意的。”这显然是一个无用的回应。

  因此,谷歌研究人员提出,有没有有效的方法将高级语言模型的语言理解能力与机器人系统擅长的处理感知和交互能力相结合,同时利用它们的优势?

机器人

  这就是谷歌和谷歌的母公司Alphabet机器人子公司EverydayRobots新的合作研发方法——PaLM-SayCan。

  第二,使用语言模型“大脑”机器人充当“手”与“眼”

  谷歌研究人员说,是的PaLM-SayCan集成到机器人中后,机器人可以更好地执行复杂抽象的任务,根据自己的能力权衡最合适的执行步骤,实现高度可解释的行动结果。

  “我们发现它(机器人)甚至可以处理16个步骤的指令。”研究人员说。

  引入PaLM-SayCan之后,语言模型可以帮助机器人更好地理解高级语义知识的应用,需要推理指令,使其与人类和物理环境的互动更加自然。

  另一方面,机器人可以充当语言模型的手和眼睛,通过与真实环境的不断互动,为语言模型提供更多的体验。

  具体怎么做?

  PaLM-SayCan方法使用PaLM语言模型(Say)其中包含的知识用于确定和评估高级指令的有效动作。它还使用一个知识来确定和评估高级指令Affordance功能(Can),支持现实世界,确定在给定环境下可以执行哪些操作。

  谷歌将大模型插入机器人!工作更快,能理解“话外音”

  该系统可视为用户和机器人之间的对话平台。用户首先发出指令,将语言模型分解为一系列明确的步骤,以方便机器人的执行。

  然后,机器人筛选这些步骤,通过评估确定当前状态和环境中最可行的行动计划,以完成相应的任务。

  该模型通过乘以两个概率来确定成功学习特定技能的概率:一个是task-grounding,即技能语言描述;二是技能语言描述;world-grounding,即当前技能的可行性。

  由于PaLM-SayCan该方法具有良好的可解释性,用户可以通过查看单独的语言和可视性分数轻松理解决策过程。

  三、洒饮料,机器人帮忙清理分几步?

  如可视化界面所示,PaLM-SayCan执行复杂任务的行为是可以解释的,这将使机器人的交互过程更加安全可控。

  例如,当你洒饮料并向机器人求助时,你可以看到它是如何做出决定的,并为执行任务选择最合适的步骤:找到可乐罐,捡起可乐罐,走到垃圾桶旁边,放下可乐罐,找到海绵,捡起海绵,走到桌子上,放下海绵……

  蓝色显示语音模型分数,即语言模型判断技能有用的概率;红色是affordance分数,即系统成功执行技能的可能性;绿色显示最终决定执行技能的综合分数。

  谷歌将大模型插入机器人!工作更快,能理解“话外音”

  PaLM-SayCan语言模型的概率和价值函数的方法(VF)结合概率,选择下一个要执行的技能,重复这个过程,直到高级指令成功完成。

  研究人员使用基于图像的克隆行为(BC)训练语言条件策略和时差(TD)加强学习方法来训练价值函数。

  谷歌将大模型插入机器人!工作更快,能理解“话外音”

  在智能身体技能库中,训练策略和价值函数的每一项技能都将被定义为一种具有简短语言描述的策略,用嵌入式表示和指示从机器人当前状态完成技能概率affordance函数。

  为了学习affordance函数,研究人员使用稀疏奖励函数,设置为1.0表示成功执行,0.0表示失败。

  在培训策略方面,研究人员从10个机器人在11个月内实施的6.8万次演示中收集数据,从一组独立学习的策略片段中筛选出1.2万个成功片段,然后在EverydayRobots使用模拟器MT-Opt学习语言条件值函数,通过演示指导模拟策略的性能,提供初步成功,然后通过模拟中的在线数据收集不断提高和加强学习性能。

  四、走向通用机器人时代

  为了测试其方法,研究人员使用并使用了它PaLM配对的EverydayRobots机器人


机器人 通用机器人 插入机器人

好的文章,需要您的鼓励

1

  • 最新资讯
  • 最新问答
推荐