LLaMA 快速上手指南
近期,Meta 发布了人工智能大语言模型 LLaMA,包含 70 亿、130 亿、330 亿和 650 亿这 4 种参数规模的模型。其中,最小的 LLaMA 7B 也经过了超 1 万亿个 tokens 的训练。
本文我们将以 7B 模型为例,分享 LLaMA 的使用方法及其效果。
1. LLaMA 的上手指南
这一部分,我们将 step by step,展示 LLaMA 的使用流程。
1) 下载 LLaMA 模型文件
以 7B 模型文件为例,包含内容如下:
2)克隆 LLaMA 项目及环境配置
如下示例中,相关操作均可通过 IDP 终端进行。
3) LLaMA 初体验
在 IDP 的 cell 中运行如下代码,即可和 LLaMA 对话,接收 LLaMA 的回答啦!
对于 7B 模型:
对于 13B 模型:
对于不同大小的 LLaMA 模型文件,上述命令需要调整的为 TARGET_FOLDER 中模型文件的名称和 node 参数。
让我们来进行两个简单的问答测试。
Prompt 1:
Building a website can be done in 10 simple steps
LLaMA 7B 模型的回答如下:
Prompt 2:
Please write a beautiful love poem
LLaMA 7B 的模型回答如下:
LLaMA 对这个提示词问题,自行增加了一些场景预设,如“I need some new poems for my birthday(为庆生,我需要一些新诗)"。
输入或调整提示词 prompt,可在 example.py 文件中的 prompts 部分进行调整,如下图所示。
关于这两个对话示例,我们也同样放上 ChatGPT 的答案,供大家对比参考。
2. 从 LLaMA 到"开源版 ChatGPT”?
LLaMA 推出 3 天后,Nebuly AI 的初创 AI 企业在 LLaMA 的基础上,基于 RLHF(基于人类反馈的强化学习)进行训练,打造了对标 ChatGPT 的 ChatLLaMA。
nebullvm/apps/accelerate/chatllama at main · nebuly-ai/nebullvm · GitHub
ChatLLaMA 声称训练过程比 ChatGPT 快 15 倍。同时,支持 DeepSpeed ZERO,可以加快微调速度。
DeepSpeed 是一个开源的深度学习训练优化库,ZeRO 是一种显存优化技术,用于提高大型模型的训练效率,如提高训练速度,降低成本和提高模型可用性等。
但 ChatLLaMA 并不提供 LLaMA 的模型权重,根据其 license,也不可以商用。
3. 彩蛋时刻
正如文章标题所说,本文不仅是指南哦。
我们在 IDP 开源的 AI IDE 中,增加了 LLaMA 和 Stable Diffusion 的示例文件,小伙伴们可以快速开启 LLaMA 体验之旅。
项目地址:https://github.com/BaihaiAI/IDP
版权声明: 本文为 InfoQ 作者【Baihai IDP】的原创文章。
原文链接:【http://xie.infoq.cn/article/d33263ae8dbd47b8fec98a1b9】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论