如何优雅的使用 ollama| 京东云技术团队
入门开源大语言模型,最好的工具就是 ollama,这是一款简单的大模型本地部署框架,支持基于命令行的方式运行多种大语言模型,并提供了相应的 Python 和 JS SDK,可以基于此方便实现 Chatbot UI。这篇文章就以京东云智算平台为例(其他平台也是类似,甚至可以在本地电脑运行),分享如何一键安装 ollama 的基本操作。
首先,在控制台创建 GPU 实例,待实例状态为运行中后,一键安装 ollama 应用。如果要手动安装,可以参考 ollama 的官网,但下载模型需要一段等待时间。
安装完成后,点击自定义应用,就可以看到 ollama Web UI,平台预置了 llama2-7b(latest),llama3-8b(latest), llama3-70b, qwen-4b(latest)模型,如果需要更多的模型,可以使用 ollama pull 命令进行下载,ollama 官方的模型仓库参见这里:https://ollama.com/library。
我租的 GPU 显卡是 4090(平台给的名字叫 GN-FP32-83 24G * 1 卡),运行 llama3-8b,llama2 和 qwen 都很快,但运行 llama3-70b 就会非常慢,好在 llama3-70b 废话不多,直接回答了问题。下图中第一个回答是 llama3-8b 的,第二个回答是 llama3-70b 的。
我们可以基于 ollama 提供的命令行工具,基于 ollama modelfile 功能,构建自己的 ollama 模型,modelefile 的原理和写法都和 Dockerfile 类似,下面我会演示如何基于模型的 System Message 能力,使用 ollama modelfile 构建一个幼儿园老师的角色扮演 Chatbot。
随便在某个目录下创建一个名为 Modelfile 的文件(文件名也可以不叫这个),例如我的文件路径为:/data/Modelfile,其内容如下:
在 JupyterLab 自带的终端中,使用 ollama 命令行工具构建模型
构建完成后,就可以通过 ollama list 命令看到新生成的 teacher 模型
点击控制台的自定义应用,在打开的页面上,可以在我们的 Web UI 上和它进行对话,效果如下:
再对比下原来 llama3 的回答,就能轻松看到效果了。
在使用 llama 的过程中,我发现 llama 对中文的支持并不好,它可以理解中文,但回答却总是用英语进行。如何构建自己的 llama3 中文模型,这方面的内容我们在后续的文章再进行分析。
作者:京东科技 彭建宏
来源:京东云开发者社区
版权声明: 本文为 InfoQ 作者【京东科技开发者】的原创文章。
原文链接:【http://xie.infoq.cn/article/f1e1f38f5f537eb74135c6772】。文章转载请联系作者。
评论