写点什么

HuggingGPT 强势来袭,LLM+ 专家模型,迈向更通用的 AI

作者:Zilliz
  • 2023-04-13
    上海
  • 本文字数:1566 字

    阅读完需:约 5 分钟

出品人:Towhee 技术团队


超级组合:HuggingFace + ChatGPT = HuggingGPT 强势来袭。人类仿佛距离真正的 AGI 又更近了一步。


HuggingGPT 是浙江大学与微软亚洲研究院的联手研究,发布之后迅速引发关注,已经开源。


它的使用非常简单,比如给定一个复杂 AI 任务,如“请生成一个女孩正在读书的图像,她的姿势与图像 example.jpg 中的男孩相同。 然后请用您的声音描述新图像。”。HuggingGPT 能为你自动分析所需 AI 模型,直接调用 HuggingFace 上的对应模型,帮助你执行并完成任务。整个过程中,你只需用自然语言表达需求。它就能帮你自动分析需要哪些 AI 模型,然后直接去调用 HuggingFace 上的相应模型,来帮你执行直到完成。


HuggingGPT 的核心概念是将语言作为 LLMs 与其他人工智能模型之间的通用接口。这一创新策略使得 LLMs 可以调用外部模型,进而解决各种复杂的人工智能任务。HuggingGPT 的设计强调了任务规划、模型选择、任务执行和响应生成四个阶段,使得整个系统可以高效地协调不同模型,解决多模态信息和复杂数字智能任务。


  • 任务规划:使用 ChatGPT 分析用户请求以了解其意图,并通过提示将其拆分为可能可解决的任务。

  • 模型选择:为了解决计划中的任务,ChatGPT 根据模型描述从托管在 Hugging Face 上的专家模型中选择模型。

  • 任务执行:调用和执行每个选择的模型,并将结果返回给 ChatGPT。

  • 响应生成:最后,使用 ChatGPT 将所有模型的预测整合起来,并为用户生成答案。



在这个例子里,对于输入的指令,“请生成一个女孩正在读书的图像,她的姿势与图像 example.jpg 中的男孩相同。 然后请用您的声音描述新图像。”


HuggingGPT 在第一步,任务规划中,设计了 6 个任务,pose-control, pose-to-image, image-class, object-det, image-to-text, text-to-speech,并安排了它们的依赖关系。第二步中,ChatGPT 根据模型描述从候选在 huggingface 上的专家模型中选择模型,它们可能是在线的,可能是下载的。第三步,代码去真正执行对应的 huggingface 上的专家模型。第四步,将所有模型的预测整合起来,并为用户生成最后的返回。可以看到,确实就是去找了姿态相关的模型,生成了一个同样姿态的小女孩读书的图像,真的是非常神奇。


HuggingGPT 已经在 Hugging Face 上成功集成了数百个模型,覆盖了 24 个任务,例如文本分类、目标检测、语义分割、图像生成、问答、文本转语音和文本转视频。实验结果证明了 HuggingGPT 在处理多模态信息和复杂人工智能任务方面的强大能力,为实现先进人工智能开辟了新的道路。



下面放几个论文中的例子,可以看到,对于各种模态组合的复杂任务,HuggingGPT 都处理得很好:



<生成一个名为“宇航员在太空中行走”的视频,并加上配音。



<给定一组图片 A:/examples/a.jpg,B:/examples/b.jpg,C:/examples/c.jpg,请问这些图片中有几只斑马?


目前在 huggingface 官网上已经开放了 gradio 试用:https://huggingface.co/spaces/microsoft/HuggingGPT,大家可以快去试试。


当然,HuggingGPT 也有一些短板。比如效率,效率的瓶颈在于大型语言模型的推理。对于每一轮用户请求,HuggingGPT 在任务规划、模型选择和响应生成阶段至少需要与大型语言模型进行一次交互。这些交互大大增加了响应延迟,导致用户体验下降。第二个限制是最大上下文长度。受限于 LLM 能接受的最大标记数量,HuggingGPT 也面临着最大上下文长度的限制。它使用了对话窗口,在任务规划阶段仅跟踪对话上下文以减轻这一限制。第三个是系统稳定性,包括两个方面。一个是大型语言模型推理过程中出现的反叛现象。大型语言模型在推理过程中偶尔无法遵循指示,输出格式可能不符合预期,导致程序工作流中的异常。第二个是 Hugging Face 推理的专家模型的不可控状态。Hugging Face 上的专家模型可能受到网络延迟或服务状态的影响,导致任务执行阶段出错。


相关资料:


  • 项目地址:https://github.com/microsoft/JARVIS

  • 相关论文:

  • https://arxiv.org/abs/2303.17580

用户头像

Zilliz

关注

Data Infrastructure for AI Made Easy 2021-10-09 加入

还未添加个人简介

评论

发布
暂无评论
HuggingGPT 强势来袭,LLM+ 专家模型,迈向更通用的AI_Zilliz_Zilliz_InfoQ写作社区