写点什么

全球首个 Open 机器人诞生!当 GPT 模型有了“肉体”, 不仅能听能写还可以干家务!

作者:Finovy Cloud
  • 2024-03-22
    广东
  • 本文字数:745 字

    阅读完需:约 2 分钟

世界上第一个「ChatGPT 机器人」来了!近期,初创公司美国机器人创业公司 Figure 发布首个基于 OpenAI 多模态大模型的人型机器人 Figure 01。现在直接给 LLM 造了个身体,具体来说是个 OpenAI 训练的多模态大模型。

Figure AI 发布了一段引人注目的视频,向公众展示了其最新研发的人形机器人 Figure 01 的多种技能,充分展示了和人类以及环境交互的能力,它会说会看,还能给人类递食物、捡垃圾、收拾碗筷。该视频引发了网友的热议,有人留言称:“未来 5-10 年绝对是一个疯狂的时代”。

当工作人员询问机器人能看见什么,Figure 01 就清晰描述出桌子上的物品,包括苹果、放有杯碟的沥水架,连站在面前的工作人员也没放过,并强调了工作人员搭在桌上的右手。

而当工作人员说了一句“我饿了”,Figure 01 立即就递过去苹果。甚至可以一边清理工作人员刚扔在桌面上的纸团垃圾,一边解释为啥刚才给了苹果。

视频里 Figure 01 展示的能力有,它会说会看,还能给人类递食物、捡垃圾、收拾碗筷。该视频引发了网友的热议,有人留言称:“未来 5-10 年绝对是一个疯狂的时代”。

那这一切技能又是怎么完美实现的呢?

领导该项目的高级 AI 工程师 Corey Lynch 发文解释了背后原理。

他表示,Figure 01 正是通过与 OpenAI 提供的大模型连接起来,才被赋予了这些天秀的“有趣新功能”。他们将机器人摄像头拍摄到的图像和机载麦克风捕捉的语音,转录为文本输入到由 OpenAI 预训练的大型多模态模型中。

该模型能够理解图像和文本,在处理整个对话历史、包括过去的图像后做出语言回应,这些回应再通过文本转语音最终传递给人类。

Figure 的人形机器人与 OpenAI 大模型能力结合,完成了此前许多难以完成的“高难度动作”,机器人与人类的人机交互效果,再次向前迭代。未来随着 AI 大模型与机器人更加深度的结合,AI 真正走向更广泛的商用、走向千家万户的进度也将提速。

用户头像

Finovy Cloud

关注

一家云基础设备服务供应商。 2022-03-31 加入

云服务器、GPU 服务器、物理主机、IDC 机房租赁等产品及服务。

评论

发布
暂无评论
全球首个Open机器人诞生!当GPT模型有了“肉体”,不仅能听能写还可以干家务!_AI_Finovy Cloud_InfoQ写作社区