机器人在线 > 资讯 > 前沿科技 > 经过人类调教后的机器人，竟然开始做起了家务？

经过人类调教后的机器人，竟然开始做起了家务？

时间：2020-03-06 来源：机器人在线阅读：10270

让机器人来代替人类做事，相信对于大部分人来说都不是件容易事，即使拥有相关编程基础的人们来说上手也会有些难度。然而工业机器人领域的专家，正计划开发只要通过观察人类工作，就能学会自主工作的自动化机器人。能否想到，未来某一天将会用机器人来帮我们处理日常杂务。在工作上，又可以像教导新员工一样训练机器人，向他们展示如何执行许多工作内容。

为了实现这一愿景，麻省理工学院的研究人员设计了一个系统，使这些类型的机器人可以学习复杂的任务，否则这些任务就会用太多令人困惑的规则来阻碍它们。这样的任务之一是在某些条件下设置餐桌。

研究人员的核心是“不确定规格计划”（PUnS）系统，该机器人具有人性化的计划能力，可以同时权衡许多模棱两可（甚至可能相互矛盾）的要求，以达到最终目标。这样做时，系统始终基于关于要执行的任务的一些可能规格的“信念”，选择最可能采取的措施。

在他们的工作中，研究人员编辑了一个数据集，其中包含有关如何将八种物体（杯子，杯子，勺子，叉子，刀，餐盘，小盘子和碗）以各种配置放置在桌子上的信息。机械手臂首先观察到随机选择的人类摆放桌子的演示。然后，研究人员要求该部门根据所看到的内容，以特定的配置，在实际实验和仿真中自动设置表格。

为了获得成功，即使必须故意移除，堆叠或隐藏物品，机器人也必须权衡许多可能的放置顺序。通常，所有这些都会使机器人过于困惑。但是研究人员的机器人在几个真实的实验中没有犯任何错误，而在成千上万的模拟测试运行中只有少数错误。

“我们的愿景是将编程交给领域专家，他们可以通过直观的方式对机器人进行编程，而不是向工程师描述要添加代码的工程师的指令，”航空学研究生的第一作者Ankit Shah说。宇航公司（AeroAstro）和互动机器人小组强调说，他们的工作只是实现这一愿景的第一步。这样一来，机器人将不再需要执行预先编程的任务。工厂工人可以教机器人执行多个复杂的组装任务。家用机器人可以从家里的人那里学习如何堆放橱柜，装载洗碗机或摆放桌子。”

与Shah一同参加论文的还有AeroAstro和Interactive Robotics Group的研究生Shen Li和Interactive Robotics Group的负责人Julie Shah，后者是AeroAstro和计算机科学与人工智能实验室的副教授。

机器人是具有明确“规格”的任务的良好计划者，可以帮助他们描述机器人需要完成的任务，并考虑其动作，环境和最终目标。通过观察示范来学习摆桌子，充满了不确定的规格。必须根据菜单和客人的座位将物品放置在某些位置，并根据物品的即时可用性或社交惯例将它们放置在某些顺序中。当前的规划方法无法处理这种不确定的规范。

一种流行的计划方法是“强化学习”，一种反复试验的机器学习技术，奖励和惩罚他们在完成任务时采取的行动。但是对于不确定规格的任务，很难定义明确的奖励和惩罚。简而言之，机器人永远不会从对与错中全面学习。

研究人员的系统称为PUnS（用于不确定规格的计划），使机器人能够在一系列可能的规格上保持“信念”。然后可以使用信念本身来分配奖励和惩罚。“机器人本质上是根据任务的意图来下注，并采取满足其信念的行动，而不是我们给出明确的要求，” Ankit Shah说。

该系统建立在“线性时间逻辑”（LTL）之上，该语言是一种表达性语言，可以使机器人对当前和未来的结果进行推理。研究人员在LTL中定义了模板，这些模板对各种基于时间的条件进行了建模，例如现在必须发生的事情，必须最终发生的事情以及必须发生直到发生其他事情为止。机器人对30个人演示设置表的观察产生了25种不同LTL公式的概率分布。每个公式都为设置表格编码了略有不同的首选项（或规范）。这种概率分布成为其信念。

“每个公式都编码不同的东西，但是当机器人考虑所有模板的各种组合，并试图使所有东西都满足时，最终最终会做对事情，” Ankit Shah说。

遵循标准

研究人员还制定了一些标准，指导机器人满足对这些候选公式的全部信念。例如，一个满足最可能的公式，该公式以最高的概率丢弃除模板之外的所有其他内容。其他人满足最大数量的唯一公式，而不考虑其总概率，或者满足代表最高总概率的几个公式。另一个简单地将误差最小化，因此系统会忽略失败概率很高的公式。

设计人员可以在训练和测试之前选择四个标准中的任何一个进行预设。每个人在灵活性和规避风险之间都有自己的权衡。标准的选择完全取决于任务。例如，在安全关键的情况下，设计人员可以选择限制故障的可能性。但是在失败后果不那么严重的情况下，设计人员可以选择赋予机器人更大的灵活性，以尝试不同的方法。

有了标准，研究人员开发了一种算法，将机器人的信念（指向所需公式的概率分布）转换为等效的强化学习问题。该模型将根据决定遵循的规范，对执行的动作给予奖励或惩罚来对机器人进行ping操作。

在模拟中要求机器人将工作台设置为不同的配置时，在20,000次尝试中，它仅犯了6个错误。在现实世界中的演示中，它显示出类似于人类执行任务的行为。例如，如果某个项目最初不可见，则机器人将完成不包含该项目的表格的其余部分的设置。然后，当叉子被露出时，它将把叉子放在适当的位置。“在那里灵活性非常重要，” Ankit Shah说。“否则，当它期望放置叉子而不完成剩余的桌子设置时，它将卡住。”

接下来，研究人员希望修改系统，以帮助机器人根据口头指示，更正或用户对机器人性能的评估来改变其行为。“例如，一个人向机器人演示了如何仅在一个位置摆放桌子。该人可能会说，“对所有其他位置都做同样的事情”，或者“将刀子放在这里，而不是放在叉子之前，” Ankit Shah说。“我们希望为系统开发方法，使其自然适应这些口头命令，而无需进行其他演示。”

工业机器人做家务前沿科技

机器人在线版权与免责声明：

1.凡本网注明[来源：机器人在线]的所有文字、图片、音视和视频文件，版权均为机器人在线(www.imrobotic.com)独家所有。如需转载请与021-60717199联系。任何媒体、网站或个人转载使用时须注明来源"机器人在线"，违反者本网将追究其法律责任。

2.本网转载并注明其他来源的稿件，均来自互联网或业内投稿人士，版权属于原版权人。转载请保留稿件来源及作者，禁止擅自篡改，违者自负版权法律责任。

3.本网评论版块中各网友的评论只代表网友个人观点，不代表本站的观点或立场。