亚马逊发布 TEACh 数据集训练家用机器人
新数据集助力训练家用机器人执行人类指令
亚马逊科学团队公开发布的 TEACh 数据集包含来自模拟环境的 3000 多组对话及关联视觉数据,旨在推动能完成复杂家务任务的 AI 助手研发。
数据集概览
数据规模:4365 个采集会话中,成功回放 3047 个
环境构成:基于 AI2-THOR 模拟器的 30 种厨房及多数客厅/卧室/浴室变体
交互特性:包含 45,000 余条对话,平均每会话 8.4 条用户指令和 5.25 条机器人响应
操作能力:支持拾取/放置、开关橱柜、操作电器、液体倾倒等 20 余种物体交互动作
技术实现
任务定义语言:通过属性验证机制判定任务完成状态(如检测"存在装满咖啡的干净杯子")
众包采集:双工作者分别扮演用户和机器人角色,通过网页界面在模拟环境中协作
动态交互:支持非结构化对话,包含过早/过晚指令、纠错指导等真实交互场景
三大基准测试
EDH(基于对话历史的执行):
输入:对话历史+机器人动作序列
输出:预测后续动作并验证环境状态改变
应用:Alexa Prize SimBot 挑战赛基准
TfD(基于对话的轨迹预测):
输入:完整对话记录
输出:重建机器人全部动作序列
TATC(双代理任务完成):
需构建用户模型(生成指令)和机器人模型(执行动作)的协同系统
验证架构
可见分割(validation-seen/test-seen):评估训练房间内的泛化能力
未见分割(validation-unseen/test-unseen):测试新场景适应能力
兼容 ALFRED 数据集迁移学习
该数据集已开源并配套发布 arXiv 技术论文,为具身智能体研究提供新基准。研究团队特别感谢 30 余位 Alexa AI 组成员的贡献。更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码

办公AI智能小助手
评论