写点什么

LLM 资料大全:文本多模态大模型、垂直领域微调模型、STF 数据集、训练微调部署框架、提示词工程等

  • 2024-04-29
    浙江
  • 本文字数:26883 字

    阅读完需:约 88 分钟

LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等

LLM 资料大全:文本多模态大模型、垂直领域微调模型、STF 数据集、训练微调部署框架、提示词工程等

自 ChatGPT 为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以 ChatGLM、LLaMA 等平民玩家都能跑起来的较小规模的 LLM 开源之后,业界涌现了非常多基于 LLM 的二次微调或应用的案例。本项目旨在收集和梳理中文 LLM 相关的开源模型、应用、数据集及教程等资料,目前收录的资源已达 100+个!



常见底座模型细节概览:



1.模型

1.1 文本 LLM 模型

  • ChatGLM:

  • 地址:https://github.com/THUDM/ChatGLM-6B

  • 简介:中文领域效果最好的开源底座模型之一,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持

  • ChatGLM2-6B

  • 地址:https://github.com/THUDM/ChatGLM2-6B

  • 简介:基于开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,引入了 GLM 的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练;基座模型的上下文长度扩展到了 32K,并在对话阶段使用 8K 的上下文长度训练;基于 Multi-Query Attention 技术实现更高效的推理速度和更低的显存占用;允许商业使用。

  • ChatGLM3-6B

  • 地址:https://github.com/THUDM/ChatGLM3

  • 简介:ChatGLM3-6B 是 ChatGLM3 系列中的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性:更强大的基础模型: ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略;更完整的功能支持: ChatGLM3-6B 采用了全新设计的 Prompt 格式,除正常的多轮对话外。同时原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景;更全面的开源序列: 除了对话模型 ChatGLM3-6B 外,还开源了基础模型 ChatGLM3-6B-Base、长文本对话模型 ChatGLM3-6B-32K。以上所有权重对学术研究完全开放,在填写问卷进行登记后亦允许免费商业使用。

  • Chinese-LLaMA-Alpaca:

  • 地址:https://github.com/ymcui/Chinese-LLaMA-Alpaca

  • 简介:中文 LLaMA&Alpaca 大语言模型+本地 CPU/GPU 部署,在原版 LLaMA 的基础上扩充了中文词表并使用了中文数据进行二次预训练

  • Chinese-LLaMA-Alpaca-2:

  • 地址:https://github.com/ymcui/Chinese-LLaMA-Alpaca-2

  • 简介:该项目将发布中文 LLaMA-2 & Alpaca-2 大语言模型,基于可商用的 LLaMA-2 进行二次开发。

  • Chinese-LlaMA2:

  • 地址:https://github.com/michael-wzhu/Chinese-LlaMA2

  • 简介:该项目基于可商用的 LLaMA-2 进行二次开发决定在次开展 Llama 2 的中文汉化工作,包括 Chinese-LlaMA2: 对 Llama 2 进行中文预训练;第一步:先在 42G 中文预料上进行训练;后续将会加大训练规模;Chinese-LlaMA2-chat: 对 Chinese-LlaMA2 进行指令微调和多轮对话微调,以适应各种应用场景和多轮对话交互。同时我们也考虑更为快速的中文适配方案:Chinese-LlaMA2-sft-v0: 采用现有的开源中文指令微调或者是对话数据,对 LlaMA-2 进行直接微调 (将于近期开源)。

  • Llama2-Chinese:

  • 地址:https://github.com/FlagAlpha/Llama2-Chinese

  • 简介:该项目专注于 Llama2 模型在中文方面的优化和上层建设,基于大规模中文数据,从预训练开始对 Llama2 模型进行中文能力的持续迭代升级。

  • Qwen/Qwen1.5

  • 地址:https://github.com/QwenLM/Qwen

  • 简介:通义千问 是阿里云研发的通义千问大模型系列模型,包括参数规模为 18 亿(1.8B)、70 亿(7B)、140 亿(14B)、720 亿(72B)和 1100 亿(110B)。各个规模的模型包括基础模型 Qwen,以及对话模型。数据集包括文本和代码等多种数据类型,覆盖通用领域和专业领域,能支持 8K 的上下文长度,针对插件调用相关的对齐数据做了特定优化,当前模型能有效调用插件以及升级为 Agent。

  • OpenChineseLLaMA:

  • 地址:https://github.com/OpenLMLab/OpenChineseLLaMA

  • 简介:基于 LLaMA-7B 经过中文数据集增量预训练产生的中文大语言模型基座,对比原版 LLaMA,该模型在中文理解能力和生成能力方面均获得较大提升,在众多下游任务中均取得了突出的成绩。

  • BELLE:

  • 地址:https://github.com/LianjiaTech/BELLE

  • 简介:开源了基于 BLOOMZ 和 LLaMA 优化后的一系列模型,同时包括训练数据、相关模型、训练代码、应用场景等,也会持续评估不同训练数据、训练算法等对模型表现的影响。

  • Panda:

  • 地址:https://github.com/dandelionsllm/pandallm

  • 简介:开源了基于 LLaMA-7B, -13B, -33B, -65B 进行中文领域上的持续预训练的语言模型, 使用了接近 15M 条数据进行二次预训练。

  • Robin (罗宾):

  • 地址:https://github.com/OptimalScale/LMFlow

  • 简介:Robin (罗宾)是香港科技大学 LMFlow 团队开发的中英双语大语言模型。仅使用 180K 条数据微调得到的 Robin 第二代模型,在 Huggingface 榜单上达到了第一名的成绩。LMFlow 支持用户快速训练个性化模型,仅需单张 3090 和 5 个小时即可微调 70 亿参数定制化模型。

  • Fengshenbang-LM:

  • 地址:https://github.com/IDEA-CCNL/Fengshenbang-LM

  • 简介:Fengshenbang-LM(封神榜大模型)是 IDEA 研究院认知计算与自然语言研究中心主导的大模型开源体系,该项目开源了姜子牙通用大模型 V1,是基于 LLaMa 的 130 亿参数的大规模预训练模型,具备翻译,编程,文本分类,信息抽取,摘要,文案生成,常识问答和数学计算等能力。除姜子牙系列模型之外,该项目还开源了太乙、二郎神系列等模型。

  • BiLLa:

  • 地址:https://github.com/Neutralzz/BiLLa

  • 简介:该项目开源了推理能力增强的中英双语 LLaMA 模型。模型的主要特性有:较大提升 LLaMA 的中文理解能力,并尽可能减少对原始 LLaMA 英文能力的损伤;训练过程增加较多的任务型数据,利用 ChatGPT 生成解析,强化模型理解任务求解逻辑;全量参数更新,追求更好的生成效果。

  • Moss:

  • 地址:https://github.com/OpenLMLab/MOSS

  • 简介:支持中英双语和多种插件的开源对话语言模型,MOSS 基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。

  • Luotuo-Chinese-LLM:

  • 地址:https://github.com/LC1332/Luotuo-Chinese-LLM

  • 简介:囊括了一系列中文大语言模型开源项目,包含了一系列基于已有开源模型(ChatGLM, MOSS, LLaMA)进行二次微调的语言模型,指令微调数据集等。

  • Linly:

  • 地址:https://github.com/CVI-SZU/Linly

  • 简介:提供中文对话模型 Linly-ChatFlow 、中文基础模型 Linly-Chinese-LLaMA 及其训练数据。 中文基础模型以 LLaMA 为底座,利用中文和中英平行增量预训练。项目汇总了目前公开的多语言指令数据,对中文模型进行了大规模指令跟随训练,实现了 Linly-ChatFlow 对话模型。

  • Firefly:

  • 地址:https://github.com/yangjianxin1/Firefly

  • 简介:Firefly(流萤) 是一个开源的中文大语言模型项目,开源包括数据、微调代码、多个基于 Bloom、baichuan 等微调好的模型等;支持全量参数指令微调、QLoRA 低成本高效指令微调、LoRA 指令微调;支持绝大部分主流的开源大模型,如百川 baichuan、Ziya、Bloom、LLaMA 等。持 lora 与 base model 进行权重合并,推理更便捷。

  • ChatYuan

  • 地址:https://github.com/clue-ai/ChatYuan

  • 简介:元语智能发布的一系列支持中英双语的功能型对话语言大模型,在微调数据、人类反馈强化学习、思维链等方面进行了优化。

  • ChatRWKV:

  • 地址:https://github.com/BlinkDL/ChatRWKV

  • 简介:开源了一系列基于 RWKV 架构的 Chat 模型(包括英文和中文),发布了包括 Raven,Novel-ChnEng,Novel-Ch 与 Novel-ChnEng-ChnPro 等模型,可以直接闲聊及进行诗歌,小说等创作,包括 7B 和 14B 等规模的模型。

  • CPM-Bee

  • 地址:https://github.com/OpenBMB/CPM-Bee

  • 简介:一个完全开源、允许商用的百亿参数中英文基座模型。它采用 Transformer 自回归架构(auto-regressive),在超万亿(trillion)高质量语料上进行预训练,拥有强大的基础能力。开发者和研究者可以在 CPM-Bee 基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。

  • TigerBot

  • 地址:https://github.com/TigerResearch/TigerBot

  • 简介:一个多语言多任务的大规模语言模型(LLM),开源了包括模型:TigerBot-7B, TigerBot-7B-base,TigerBot-180B,基本训练和推理代码,100G 预训练数据,涵盖金融、法律、百科的领域数据以及 API 等。

  • 书生·浦语

  • 地址:https://github.com/InternLM/InternLM-techreport

  • 简介:商汤科技、上海 AI 实验室联合香港中文大学、复旦大学和上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM)。据悉,“书生·浦语”具有 1040 亿参数,基于“包含 1.6 万亿 token 的多语种高质量数据集”训练而成。

  • 书生·浦语 2

  • 地址:https://github.com/InternLM/InternLM

  • 简介:商汤科技、上海 AI 实验室联合香港中文大学、复旦大学和上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM2)。InternLM2 在数理、代码、对话、创作等各方面能力都获得了长足进步,综合性能达到开源模型的领先水平。InternLM2 包含两种模型规格:7B 和 20B。7B 为轻量级的研究和应用提供了一个轻便但性能不俗的模型,20B 模型的综合性能更为强劲,可以有效支持更加复杂的实用场景。

  • Aquila

  • 地址:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

  • 简介:由智源研究院发布,Aquila 语言大模型在技术上继承了 GPT-3、LLaMA 等的架构设计优点,替换了一批更高效的底层算子实现、重新设计实现了中英双语的 tokenizer,升级了 BMTrain 并行训练方法,是在中英文高质量语料基础上从0开始训练的,通过数据质量的控制、多种训练的优化方法,实现在更小的数据集、更短的训练时间,获得比其它开源模型更优的性能。也是首个支持中英双语知识、支持商用许可协议、符合国内数据合规需要的大规模开源语言模型。

  • Aquila2

  • 地址:https://github.com/FlagAI-Open/Aquila2

  • 简介:由智源研究院发布,Aquila2 系列,包括基础语言模型 Aquila2-7B,Aquila2-34B 和 Aquila2-70B-Expr ,对话模型 AquilaChat2-7B ,AquilaChat2-34B 和 AquilaChat2-70B-Expr,长文本对话模型 AquilaChat2-7B-16k 和 AquilaChat2-34B-16。

  • Baichuan-7B

  • 地址:https://github.com/baichuan-inc/baichuan-7B

  • 简介:Baichuan-13B 是由百川智能继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。该项目发布包含有预训练 (Baichuan-13B-Base) 和对齐 (Baichuan-13B-Chat) 两个版本。

  • Baichuan-13B

  • 地址:https://github.com/baichuan-inc/Baichuan-13B

  • 简介:由百川智能开发的一个开源可商用的大规模预训练语言模型。基于 Transformer 结构,在大约 1.2 万亿 tokens 上训练的 70 亿参数模型,支持中英双语,上下文窗口长度为 4096。在标准的中文和英文权威 benchmark(C-EVAL/MMLU)上均取得同尺寸最好的效果。

  • Baichuan2

  • 地址:https://github.com/baichuan-inc/Baichuan2

  • 简介:由百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练,在多个权威的中文、英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的效果,发布包含有 7B、13B 的 Base 和经过 PPO 训练的 Chat 版本,并提供了 Chat 版本的 4bits 量化。

  • Anima

  • 地址:https://github.com/lyogavin/Anima

  • 简介:由艾写科技开发的一个开源的基于 QLoRA 的 33B 中文大语言模型,该模型基于 QLoRA 的 Guanaco 33B 模型使用 Chinese-Vicuna 项目开放的训练数据集 guanaco_belle_merge_v1.0 进行 finetune 训练了 10000 个 step,基于 Elo rating tournament 评估效果较好。

  • KnowLM

  • 地址:https://github.com/zjunlp/KnowLM

  • 简介:KnowLM 项目旨在发布开源大模型框架及相应模型权重以助力减轻知识谬误问题,包括大模型的知识难更新及存在潜在的错误和偏见等。该项目一期发布了基于 Llama 的抽取大模型智析,使用中英文语料对 LLaMA(13B)进行进一步全量预训练,并基于知识图谱转换指令技术对知识抽取任务进行优化。

  • BayLing

  • 地址:https://github.com/ictnlp/BayLing

  • 简介:一个具有增强的跨语言对齐的通用大模型,由中国科学院计算技术研究所自然语言处理团队开发。百聆(BayLing)以 LLaMA 为基座模型,探索了以交互式翻译任务为核心进行指令微调的方法,旨在同时完成语言间对齐以及与人类意图对齐,将 LLaMA 的生成能力和指令跟随能力从英语迁移到其他语言(中文)。在多语言翻译、交互翻译、通用任务、标准化考试的测评中,百聆在中文/英语中均展现出更好的表现。百聆提供了在线的内测版 demo,以供大家体验。

  • YuLan-Chat

  • 地址:https://github.com/RUC-GSAI/YuLan-Chat

  • 简介:YuLan-Chat 是中国人民大学 GSAI 研究人员开发的基于聊天的大语言模型。它是在 LLaMA 的基础上微调开发的,具有高质量的英文和中文指令。 YuLan-Chat 可以与用户聊天,很好地遵循英文或中文指令,并且可以在量化后部署在 GPU(A800-80G 或 RTX3090)上。

  • PolyLM

  • 地址:https://github.com/DAMO-NLP-MT/PolyLM

  • 简介:一个在 6400 亿个词的数据上从头训练的多语言语言模型,包括两种模型大小(1.7B 和 13B)。PolyLM 覆盖中、英、俄、西、法、葡、德、意、荷、波、阿、土、希伯来、日、韩、泰、越、印尼等语种,特别是对亚洲语种更友好。

  • huozi

  • 地址:https://github.com/HIT-SCIR/huozi

  • 简介:由哈工大自然语言处理研究所多位老师和学生参与开发的一个开源可商用的大规模预训练语言模型。 该模型基于 Bloom 结构的 70 亿参数模型,支持中英双语,上下文窗口长度为 2048,同时还开源了基于 RLHF 训练的模型以及全人工标注的 16.9K 中文偏好数据集。

  • YaYi

  • 地址:https://github.com/wenge-research/YaYi

  • 简介:雅意大模型在百万级人工构造的高质量领域数据上进行指令微调得到,训练数据覆盖媒体宣传、舆情分析、公共安全、金融风控、城市治理等五大领域,上百种自然语言指令任务。雅意大模型从预训练初始化权重到领域模型的迭代过程中,我们逐步增强了它的中文基础能力和领域分析能力,并增加了多轮对话和部分插件能力。同时,经过数百名用户内测过程中持续不断的人工反馈优化,进一步提升了模型性能和安全性。已开源基于 LLaMA 2 的中文优化模型版本,探索适用于中文多领域任务的最新实践。。

  • XVERSE-7B

  • 地址:https://github.com/xverse-ai/XVERSE-7B

  • 简介:由深圳元象科技自主研发的支持多语言的大语言模型,支持 8K 的上下文长度(Context Length),使用 2.6 万亿 token 的高质量、多样化的数据对模型进行充分训练,支持中、英、俄、西等 40 多种语言。并包含 GGUF、GPTQ 量化版本的模型,支持在 llama.cpp、vLLM 在 MacOS/Linux/Windows 系统上推理。

  • XVERSE-13B

  • 地址:https://github.com/xverse-ai/XVERSE-13B

  • 简介:由深圳元象科技自主研发的支持多语言的大语言模型,支持 8K 的上下文长度(Context Length),使用 3.2 万亿 token 的高质量、多样化的数据对模型进行充分训练,支持中、英、俄、西等 40 多种语言。包含长序列对话模型 XVERSE-13B-256K ,该版本模型最大支持 256K 的上下文窗口长度,约 25w 字的输入内容,可以协助进行文献总结、报告分析等任务。并包含 GGUF、GPTQ 量化版本的模型,支持在 llama.cpp、vLLM 在 MacOS/Linux/Windows 系统上推理。

  • XVERSE-65B

  • 地址:https://github.com/xverse-ai/XVERSE-65B

  • 简介:由深圳元象科技自主研发的支持多语言的大语言模型,支持 16K 的上下文长度(Context Length),使用 2.6 万亿 token 的高质量、多样化的数据对模型进行充分训练,支持中、英、俄、西等 40 多种语言。包含增量预训练到 3.2 万亿 token 的 XVERSE-65B-2 模型。并包含 GGUF、GPTQ 量化版本的模型,支持在 llama.cpp、vLLM 在 MacOS/Linux/Windows 系统上推理。

  • XVERSE-MoE-A4.2B

  • 地址:https://github.com/xverse-ai/XVERSE-MoE-A4.2B

  • 简介:由深圳元象科技自主研发的支持多语言的大语言模型(Large Language Model),使用混合专家模型(MoE,Mixture-of-experts)架构,模型的总参数规模为 258 亿,实际激活的参数量为 42 亿,支持 8K 的上下文长度(Context Length),使用 3.2 万亿 token 的高质量、多样化的数据对模型进行充分训练,支持中、英、俄、西等 40 多种语言。

  • Skywork

  • 地址:https://github.com/SkyworkAI/Skywork

  • 简介:该项目开源了天工系列模型,该系列模型在 3.2TB 高质量多语言和代码数据上进行预训练,开源了包括模型参数,训练数据,评估数据,评估方法。具体包括 Skywork-13B-Base 模型、Skywork-13B-Chat 模型、Skywork-13B-Math 模型和 Skywork-13B-MM 模型,以及每个模型的量化版模型,以支持用户在消费级显卡进行部署和推理。

  • Yi

  • 地址:https://github.com/01-ai/Yi

  • 简介:该项目开源了 Yi-6B 和 Yi-34B 等模型,该系列模型最长可支持 200K 的超长上下文窗口版本,可以处理约 40 万汉字超长文本输入,理解超过 1000 页的 PDF 文档。

  • Yuan-2.0

  • 地址:https://github.com/IEIT-Yuan/Yuan-2.0

  • 简介:该项目开源了由浪潮信息发布的新一代基础语言大模型,具体开源了全部的 3 个模型源 2.0-102B,源 2.0-51B 和源 2.0-2B。并且提供了预训练,微调,推理服务的相关脚本。源 2.0 是在源 1.0 的基础上,利用更多样的高质量预训练数据和指令微调数据集,令模型在语义、数学、推理、代码、知识等不同方面具备更强的理解能力。

  • Chinese-Mixtral-8x7B

  • 地址:https://github.com/HIT-SCIR/Chinese-Mixtral-8x7B

  • 简介:该项目基于 Mixtral-8x7B 稀疏混合专家模型进行了中文扩词表增量预训练,开源了 Chinese-Mixtral-8x7B 扩词表模型以及训练代码。该模型的的中文编解码效率较原模型显著提高。同时通过在大规模开源语料上进行的增量预训练,该模型具备了强大的中文生成和理解能力。

  • BlueLM

  • 地址:https://github.com/vivo-ai-lab/BlueLM

  • 簡介:BlueLM 是由 vivo AI 全球研究院自主研发的大规模预训练语言模型,本次发布包含 7B 基础 (base) 模型和 7B 对话 (chat) 模型,同时我们开源了支持 32K 的长文本基础 (base) 模型和对话 (chat) 模型。

  • TuringMM

  • 地址:https://github.com/lightyear-turing/TuringMM-34B-Chat

  • 簡介:TuringMM-34B-Chat 是一款开源的中英文 Chat 模型,由北京光年无限科技有限公司基于 Yi-34B 开源模型、基于 14w 的精标教育数据进行 sft 微调以及 15W 对齐数据进行 DPO 偏好学习得到的一个微调模型。

  • Orion

  • 地址:https://github.com/OrionStarAI/Orion

  • 簡介:Orion-14B-Base 是一个具有 140 亿参数的多语种大模型,该模型在一个包含 2.5 万亿 token 的多样化数据集上进行了训练,涵盖了中文、英语、日语、韩语等多种语言。

  • OrionStar-Yi-34B-Chat

  • 地址:https://github.com/OrionStarAI/OrionStar-Yi-34B-Chat

  • 簡介:OrionStar-Yi-34B-Chat 是猎户星空基于零一万物开源的 Yi-34B 模型,使用 15W+ 的高质量语料训练而来微调大模型,旨在为大模型社区用户提供卓越的交互体验。

1.2 多模态 LLM 模型

  • VisualGLM-6B

  • 地址:https://github.com/THUDM/VisualGLM-6B

  • 简介:一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共 78 亿参数。依靠来自于 CogView 数据集的 30M 高质量中文图文对,与 300M 经过筛选的英文图文对进行预训练。

  • CogVLM

  • 地址:https://github.com/THUDM/CogVLM

  • 简介:一个强大的开源视觉语言模型(VLM)。CogVLM-17B 拥有 100 亿视觉参数和 70 亿语言参数。 CogVLM-17B 在 10 个经典跨模态基准测试上取得了 SOTA 性能。CogVLM 能够准确地描述图像,几乎不会出现幻觉。

  • VisCPM

  • 地址:https://github.com/OpenBMB/VisCPM

  • 简介:一个开源的多模态大模型系列,支持中英双语的多模态对话能力(VisCPM-Chat 模型)和文到图生成能力(VisCPM-Paint 模型)。VisCPM 基于百亿参数量语言大模型 CPM-Bee(10B)训练,融合视觉编码器(Q-Former)和视觉解码器(Diffusion-UNet)以支持视觉信号的输入和输出。得益于 CPM-Bee 基座优秀的双语能力,VisCPM 可以仅通过英文多模态数据预训练,泛化实现优秀的中文多模态能力。

  • Visual-Chinese-LLaMA-Alpaca

  • 地址:https://github.com/airaria/Visual-Chinese-LLaMA-Alpaca

  • 简介:基于中文 LLaMA&Alpaca 大模型项目开发的多模态中文大模型。VisualCLA 在中文 LLaMA/Alpaca 模型上增加了图像编码等模块,使 LLaMA 模型可以接收视觉信息。在此基础上,使用了中文图文对数据进行了多模态预训练,对齐图像与文本表示,赋予其基本的多模态理解能力;并使用多模态指令数据集精调,增强其对多模态指令的理解、执行和对话能力,目前开源了 VisualCLA-7B-v0.1。

  • LLaSM

  • 地址:https://github.com/LinkSoul-AI/LLaSM

  • 简介:第一个支持中英文双语语音-文本多模态对话的开源可商用对话模型。便捷的语音输入将大幅改善以文本为输入的大模型的使用体验,同时避免了基于 ASR 解决方案的繁琐流程以及可能引入的错误。目前开源了 LLaSM-Chinese-Llama-2-7B、LLaSM-Baichuan-7B 等模型与数据集。

  • Qwen-VL

  • 地址:https://github.com/QwenLM/Qwen-VL

  • 简介:是阿里云研发的大规模视觉语言模型,可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。特点包括:强大的性能:在四大类多模态任务的标准英文测评中上均取得同等通用模型大小下最好效果;多语言对话模型:天然支持英文、中文等多语言对话,端到端支持图片里中英双语的长文本识别;多图交错对话:支持多图输入和比较,指定图片问答,多图文学创作等;首个支持中文开放域定位的通用模型:通过中文开放域语言表达进行检测框标注;细粒度识别和理解:相比于目前其它开源 LVLM 使用的 224 分辨率,Qwen-VL 是首个开源的 448 分辨率的 LVLM 模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。

2. 应用

2.1 垂直领域微调

2.1.1 医疗


  • DoctorGLM:

  • 地址:https://github.com/xionghonglin/DoctorGLM

  • 简介:基于 ChatGLM-6B 的中文问诊模型,通过中文医疗对话数据集进行微调,实现了包括 lora、p-tuningv2 等微调及部署

  • BenTsao:

  • 地址:https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese

  • 简介:开源了经过中文医学指令精调/指令微调(Instruct-tuning) 的 LLaMA-7B 模型。通过医学知识图谱和 GPT3.5 API 构建了中文医学指令数据集,并在此基础上对 LLaMA 进行了指令微调,提高了 LLaMA 在医疗领域的问答效果。

  • BianQue:

  • 地址:https://github.com/scutcyr/BianQue

  • 简介:一个经过指令与多轮问询对话联合微调的医疗对话大模型,基于 ClueAI/ChatYuan-large-v2 作为底座,使用中文医疗问答指令与多轮问询对话混合数据集进行微调。

  • HuatuoGPT:

  • 地址:https://github.com/FreedomIntelligence/HuatuoGPT

  • 简介:开源了经过中文医学指令精调/指令微调(Instruct-tuning)的一个 GPT-like 模型

  • Med-ChatGLM:

  • 地址:https://github.com/SCIR-HI/Med-ChatGLM

  • 简介:基于中文医学知识的 ChatGLM 模型微调,微调数据与 BenTsao 相同。

  • QiZhenGPT:

  • 地址:https://github.com/CMKRG/QiZhenGPT

  • 简介:该项目利用启真医学知识库构建的中文医学指令数据集,并基于此在 LLaMA-7B 模型上进行指令精调,大幅提高了模型在中文医疗场景下效果,首先针对药品知识问答发布了评测数据集,后续计划优化疾病、手术、检验等方面的问答效果,并针对医患问答、病历自动生成等应用展开拓展。

  • ChatMed:

  • 地址:https://github.com/michael-wzhu/ChatMed

  • 简介:该项目推出 ChatMed 系列中文医疗大规模语言模型,模型主干为 LlaMA-7b 并采用 LoRA 微调,具体包括 ChatMed-Consult : 基于中文医疗在线问诊数据集 ChatMed_Consult_Dataset 的 50w+在线问诊+ChatGPT 回复作为训练集;ChatMed-TCM : 基于中医药指令数据集 ChatMed_TCM_Dataset,以开源的中医药知识图谱为基础,采用以实体为中心的自指令方法(entity-centric self-instruct),调用 ChatGPT 得到 2.6w+的围绕中医药的指令数据训练得到。

  • XrayGLM,首个会看胸部 X 光片的中文多模态医学大模型:

  • 地址:https://github.com/WangRongsheng/XrayGLM

  • 简介:该项目为促进中文领域医学多模态大模型的研究发展,发布了 XrayGLM 数据集及模型,其在医学影像诊断和多轮交互对话上显示出了非凡的潜力。

  • MeChat,中文心理健康支持对话大模型:

  • 地址:https://github.com/qiuhuachuan/smile

  • 简介:该项目开源的中文心理健康支持通用模型由 ChatGLM-6B LoRA 16-bit 指令微调得到。数据集通过调用 gpt-3.5-turbo API 扩展真实的心理互助 QA 为多轮的心理健康支持多轮对话,提高了通用语言大模型在心理健康支持领域的表现,更加符合在长程多轮对话的应用场景。

  • MedicalGPT

  • 地址:https://github.com/shibing624/MedicalGPT

  • 简介:训练医疗大模型,实现包括二次预训练、有监督微调、奖励建模、强化学习训练。发布中文医疗 LoRA 模型 shibing624/ziya-llama-13b-medical-lora,基于 Ziya-LLaMA-13B-v1 模型,SFT 微调了一版医疗模型,医疗问答效果有提升,发布微调后的 LoRA 权重。

  • Sunsimiao

  • 地址:https://github.com/thomas-yanxin/Sunsimiao

  • 简介:Sunsimiao 是一个开源的中文医疗大模型,该模型基于 baichuan-7B 和 ChatGLM-6B 底座模型在十万级高质量的中文医疗数据中微调而得。

  • ShenNong-TCM-LLM

  • 地址:https://github.com/michael-wzhu/ShenNong-TCM-LLM

  • 简介:该项目开源了 ShenNong 中医药大规模语言模型,该模型以 LlaMA 为底座,采用 LoRA (rank=16)微调得到。微调代码与 ChatMed 代码库相同。此外该项目还开源了中医药指令微调数据集。

  • SoulChat

  • 地址:https://github.com/scutcyr/SoulChat

  • 简介:该项目开源了经过百万规模心理咨询领域中文长文本指令与多轮共情对话数据联合指令微调的心理健康大模型灵心(SoulChat),该模型以 ChatGLM-6B 作为初始化模型,进行了全量参数的指令微调。

  • CareGPT

  • 地址:https://github.com/WangRongsheng/CareGPT

  • 简介:该项目开源了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型,包含 LLM 的训练、测评、部署等以促进医疗 LLM 快速发展。

  • DISC-MedLLM

  • 地址:https://github.com/FudanDISC/DISC-MedLLM

  • 简介:该项目是由复旦大学发布的针对医疗健康对话式场景而设计的医疗领域大模型与数据集,该模型由 DISC-Med-SFT 数据集基于 Baichuan-13B-Base 指令微调得到。

  • Taiyi-LLM

  • 地址:https://github.com/DUTIR-BioNLP/Taiyi-LLM

  • 简介:该项目由大连理工大学信息检索研究室开发的中英双语医学大模型"太一",收集整理了丰富的中英双语生物医学自然语言处理(BioNLP)训练语料,总共包含 38 个中文数据集,通过丰富的中英双语任务指令数据(超过 100W 条样本)进行大模型(Qwen-7B-base)指令微调,使模型具备了出色的中英双语生物医学智能问答、医患对话、报告生成、信息抽取、机器翻译、标题生成、文本分类等多种 BioNLP 能力。

  • WiNGPT

  • 地址:https://github.com/winninghealth/WiNGPT2

  • 简介:WiNGPT 是一个基于 GPT 的医疗垂直领域大模型,基于 Qwen-7b1 作为基础预训练模型,在此技术上进行了继续预训练,指令微调等,该项目具体开源了 WiNGPT2-7B-Base 与 WiNGPT2-7B-Chat 模型。

  • ChiMed-GPT

  • 地址:https://github.com/synlp/ChiMed-GPT

  • 简介:ChiMed-GPT 是一个开源中文医学大语言模型,通过在中文医学数据上持续训练 Ziya-v2 构建而成,其中涵盖了预训练、有监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 等训练过程。

  • MindChat

  • 地址:https://github.com/X-D-Lab/MindChat

  • 简介:心理大模型——漫谈(MindChat)期望从心理咨询、心理评估、心理诊断、心理治疗四个维度帮助人们纾解心理压力与解决心理困惑,为用户提供隐私、温暖、安全、及时、方便的对话环境,从而帮助用户克服各种困难和挑战,实现自我成长和发展。MindChat 是一个基于 Qwen 作为基础预训练模型,并在此基础上进行指令微调得到的心理垂域大模型。

2.1.2 法律


  • 獬豸(LawGPT_zh): 中文法律对话语言模型

  • 地址:https://github.com/LiuHC0428/LAW-GPT

  • 简介: 本项目开源的中文法律通用模型由 ChatGLM-6B LoRA 16-bit 指令微调得到。数据集包括现有的法律问答数据集和基于法条和真实案例指导的 self-Instruct 构建的高质量法律文本问答,提高了通用语言大模型在法律领域的表现,提高了模型回答的可靠性和专业程度。

  • LaWGPT:基于中文法律知识的大语言模型

  • 地址:https://github.com/pengxiao-song/LaWGPT

  • 简介:该系列模型在通用中文基座模型(如 Chinese-LLaMA、ChatGLM 等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练,增强了大模型在法律领域的基础语义理解能力。在此基础上,构造法律领域对话问答数据集、中国司法考试数据集进行指令精调,提升了模型对法律内容的理解和执行能力。

  • LexiLaw:中文法律大模型

  • 地址:https://github.com/CSHaitao/LexiLaw

  • 简介:LexiLaw 是一个基于 ChatGLM-6B 微调的中文法律大模型,通过在法律领域的数据集上进行微调。该模型旨在为法律从业者、学生和普通用户提供准确、可靠的法律咨询服务,包括具体法律问题的咨询,还是对法律条款、案例解析、法规解读等方面的查询。

  • Lawyer LLaMA:中文法律 LLaMA

  • 地址:https://github.com/AndrewZhe/lawyer-llama

  • 简介:开源了一系列法律领域的指令微调数据和基于 LLaMA 训练的中文法律大模型的参数。Lawyer LLaMA 首先在大规模法律语料上进行了 continual pretraining。在此基础上,借助 ChatGPT 收集了一批对中国国家统一法律职业资格考试客观题(以下简称法考)的分析和对法律咨询的回答,利用收集到的数据对模型进行指令微调,让模型习得将法律知识应用到具体场景中的能力。

  • 韩非(HanFei)

  • 地址: https://github.com/siat-nlp/HanFei

  • 简介: HanFei-1.0(韩非)是国内首个全参数训练的法律大模型,参数量 7b,主要功能包括:法律问答、多轮对话、撰写文章、检索等。

  • ChatLaw-法律大模型

  • 地址:https://github.com/PKU-YuanGroup/ChatLaw

  • 简介:由北大开源的一系列法律领域的大模型,包括 ChatLaw-13B(基于姜子牙 Ziya-LLaMA-13B-v1 训练而来),ChatLaw-33B(基于 Anima-33B 训练而来,逻辑推理能力大幅提升),ChatLaw-Text2Vec,使用 93w 条判决案例做成的数据集基于 BERT 训练了一个相似度匹配模型,可将用户提问信息和对应的法条相匹配。

  • lychee_law-律知

  • 地址:https://github.com/davidpig/lychee_law

  • 简介:该项目由德国萨尔大学团队和中国南京大学团队合作开发,开源一系列中文司法领域大模型,如 Law-GLM-10B: 基于 GLM-10B 模型, 在 30GB 中文法律数据上进行指令微调得到的。

  • 智海-录问(wisdomInterrogatory)

  • 地址:https://github.com/zhihaiLLM/wisdomInterrogatory

  • 简介:该项目由浙江大学、阿里巴巴达摩院以及华院计算三家单位共同设计研发的法律大模型,基于 baichuan-7b 进行了法律领域数据的二次预训练与指令微调,并设计了知识增强的推理流程。

  • 夫子•明察司法大模型

  • 地址:https://github.com/irlab-sdu/fuzi.mingcha

  • 简介:该项目由是由山东大学、浪潮云、中国政法大学联合研发,以 ChatGLM 为大模型底座,基于海量中文无监督司法语料(包括各类判决文书、法律法规等)与有监督司法微调数据(包括法律问答、类案检索)训练的中文司法大模型。该模型支持法条检索、案例分析、三段论推理判决以及司法对话等功能。

  • DISC-LawLLM

  • 地址:https://github.com/FudanDISC/DISC-LawLLM

  • 简介:该项目由由复旦大学数据智能与社会计算实验室 (Fudan-DISC) 开发并开源的法律领域大模型,包括数据集,基于 Baichuan-13B-Base 进行微调的模型,且增加了检索增强模块。

2.1.3 金融


  • Cornucopia(聚宝盆):基于中文金融知识的 LLaMA 微调模型

  • 地址:https://github.com/jerry1993-tech/Cornucopia-LLaMA-Fin-Chinese

  • 简介:开源了经过中文金融知识指令精调/指令微调(Instruct-tuning) 的 LLaMA-7B 模型。通过中文金融公开数据+爬取的金融数据构建指令数据集,并在此基础上对 LLaMA 进行了指令微调,提高了 LLaMA 在金融领域的问答效果。基于相同的数据,后期还会利用 GPT3.5 API 构建高质量的数据集,另在中文知识图谱-金融上进一步扩充高质量的指令数据集。

  • BBT-FinCUGE-Applications

  • 地址:https://github.com/ssymmetry/BBT-FinCUGE-Applications

  • 简介:开源了中文金融领域开源语料库 BBT-FinCorpus,中文金融领域知识增强型预训练语言模型 BBT-FinT5 及中文金融领域自然语言处理评测基准 CFLEB。

  • XuanYuan(轩辕):首个千亿级中文金融对话模型

  • 地址:https://github.com/Duxiaoman-DI/XuanYuan

  • 简介:轩辕是国内首个开源的千亿级中文对话大模型,同时也是首个针对中文金融领域优化的千亿级开源对话大模型。轩辕在 BLOOM-176B 的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调,它不仅可以应对通用领域的问题,也可以解答与金融相关的各类问题,为用户提供准确、全面的金融信息和建议。

  • FinGPT

  • 地址:https://github.com/AI4Finance-Foundation/FinGPT

  • 简介:该项目开源了多个金融大模型,包括 ChatGLM-6B/ChatGLM2-6B+LoRA 和 LLaMA-7B+LoRA 的金融大模型,收集了包括金融新闻、社交媒体、财报等中英文训练数据。

  • DISC-FinLLM

  • 地址:https://github.com/FudanDISC/DISC-FinLLM

  • 简介:该项目由复旦大学数据智能与社会计算实验室 (Fudan-DISC) 开发并开源,项目中开源的资源包括:DISC-FinLLM-SFT 训练数据样本,DISC-FinLLM 模型参数(基于 Baichuan-13B-Chat 训练),DISC-Fin-Eval-Benchmark 等。

  • Tongyi-Finance

  • 地址:https://modelscope.cn/models/TongyiFinance/Tongyi-Finance-14B

  • 简介:该模型是针对对金融行业推出的大语言模型,基于通义千问基础模型进行行业语料增量学习,强化金融领域知识和场景应用能力,覆盖金融知识问答、文本分类、信息抽取、文本创作、阅读理解、逻辑推理、多模态、Coding 等能力象限。具有以下特点:行业语料增量学习:使用 200B 高质量金融行业语料进行增量学习,并进行金融行业词表扩展,覆盖丰富的数据类型,支持更大上下文(16k)输入和完整的语义表达。行业能力强化:自研 SFT 质量 &多样性分析工具,筛选高质量 SFT 数据,解决大语言模型的 alignment 问题。行业后链路优化:借助 multi-agent 框架,实现知识库增强和工具 API 调用。

2.1.4 教育

  • 桃李(Taoli):

  • 地址:https://github.com/blcuicall/taoli

  • 简介:一个在国际中文教育领域数据上进行了额外训练的模型。项目基于目前国际中文教育领域流通的 500 余册国际中文教育教材与教辅书、汉语水平考试试题以及汉语学习者词典等,构建了国际中文教育资源库,构造了共计 88000 条的高质量国际中文教育问答数据集,并利用收集到的数据对模型进行指令微调,让模型习得将知识应用到具体场景中的能力。

  • EduChat:

  • 地址:https://github.com/icalk-nlp/EduChat

  • 简介:该项目华东师范大学计算机科学与技术学院的 EduNLP 团队研发,主要研究以预训练大模型为基底的教育对话大模型相关技术,融合多样化的教育垂直领域数据,辅以指令微调、价值观对齐等方法,提供教育场景下自动出题、作业批改、情感支持、课程辅导、高考咨询等丰富功能,服务于广大老师、学生和家长群体,助力实现因材施教、公平公正、富有温度的智能教育。

  • chatglm-maths:

  • 地址:https://github.com/yongzhuo/chatglm-maths

  • 简介:基于 chatglm-6b 微调/LORA/PPO/推理的数学题解题大模型, 样本为自动生成的整数/小数加减乘除运算, 可 gpu/cpu 部署,开源了训练数据集等。

  • MathGLM:

  • 地址:https://github.com/THUDM/MathGLM

  • 简介:该项目由 THUDM 研发,开源了多个能进行 20 亿参数可以进行准确多位算术运算的语言模型,同时开源了可用于算术运算微调的数据集。

  • QiaoBan:

  • 地址:https://github.com/HIT-SCIR-SC/QiaoBan

  • 简介:该项目旨在构建一个面向儿童情感陪伴的大模型,这个仓库包含:用于指令微调的对话数据/data,巧板的训练代码,训练配置文件,使用巧板进行对话的示例代码(TODO,checkpoint 将发布至 huggingface)。

2.1.5 科技

  • 天文大语言模型 StarGLM:

  • 地址:https://github.com/Yu-Yang-Li/StarGLM

  • 简介:基于 ChatGLM 训练了天文大语言模型,以期缓解大语言模型在部分天文通用知识和前沿变星领域的幻觉现象,为接下来可处理天文多模态任务、部署于望远镜阵列的观测 Agent——司天大脑(数据智能处理)打下基础。

  • TransGPT·致远:

  • 地址:https://github.com/DUOMO/TransGPT

  • 简介:开源交通大模型,主要致力于在真实交通行业中发挥实际价值。它能够实现交通情况预测、智能咨询助手、公共交通服务、交通规划设计、交通安全教育、协助管理、交通事故报告和分析、自动驾驶辅助系统等功能。

  • Mozi:

  • 地址:https://github.com/gmftbyGMFTBY/science-llm

  • 简介:该项目开源了基于 LLaMA 和 Baichuan 的科技论文大模型,可以用于科技文献的问答和情感支持。

2.1.6 电商

  • EcomGPT

  • 地址:https://github.com/Alibaba-NLP/EcomGPT

  • 简介:一个由阿里发布的面向电商领域的语言模型,该模型基于 BLOOMZ 在电商指令微调数据集上微调得到,人工评估在 12 个电商评测数据集上超过 ChatGPT。

2.1.7 网络安全

  • SecGPT

  • 地址:https://github.com/Clouditera/secgpt

  • 简介:开项目开源了网络安全大模型,该模型基于 Baichuan-13B 采用 Lora 做预训练和 SFT 训练,此外该项目还开源了相关预训练和指令微调数据集等资源。

2.1.8 农业

  • 后稷(AgriMa):

  • 地址:https://github.com/zhiweihu1103/AgriMa

  • 简介:首个中文开源农业大模型是由山西大学、山西农业大学与 The Fin AI 联合研发,以 Baichuan 为底座,基于海量有监督农业领域相关数据微调,具备广泛的农业知识和智能分析能力,该模型旨在为农业领域提供全面而高效的信息处理和决策支持。

2.2 LangChain 应用

  • langchain-ChatGLM:

  • 地址:https://github.com/imClumsyPanda/langchain-ChatGLM

  • 简介:基于本地知识库的问答应用,目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。建立了全流程可使用开源模型实现的本地知识库问答应用。现已支持使用 ChatGLM-6B 等大语言模型直接接入,或通过 fastchat api 形式接入 Vicuna, Alpaca, LLaMA, Koala, RWKV 等模型。

  • LangChain-ChatGLM-Webui:

  • 地址:https://github.com/thomas-yanxin/LangChain-ChatGLM-Webui

  • 简介:利用 LangChain 和 ChatGLM-6B 系列模型制作的 Webui, 提供基于本地知识的大模型应用。目前支持上传 txt、docx、md、pdf 等文本格式文件, 提供包括 ChatGLM-6B 系列、Belle 系列等模型文件以及 GanymedeNil/text2vec-large-chinese、nghuyong/ernie-3.0-base-zh、nghuyong/ernie-3.0-nano-zh 等 Embedding 模型。

  • Langchain-ChatGLM-and-TigerBot:

  • 地址:https://github.com/wordweb/langchain-ChatGLM-and-TigerBot

  • 简介:该项目在 langchain-ChatGLM 的基础上补充了加载 TigerBot 模型的基于本地知识库的问答应用。

  • Chinese-LangChain:

  • 地址:https://github.com/yanqiangmiffy/Chinese-LangChain

  • 简介:基于 ChatGLM-6b+langchain 实现本地化知识库检索与智能答案生成(包括互联网检索结果接入)

  • Lagent:

  • 地址:https://github.com/InternLM/lagent

  • 简介:Lagent 是一个轻量级、开源的基于大语言模型的智能体(agent)框架,支持用户快速地将一个大语言模型转变为多种类型的智能体。具体实现了多种类型的智能体,如经典的 ReAct,AutoGPT 和 ReWoo 等智能体。框架简单易拓展. 只需要不到 20 行代码你就能够创造出一个你自己的智能体(agent)。同时支持了 Python 解释器、API 调用和搜索三类常用典型工具。灵活支持多个大语言模型. 提供了多种大语言模型支持包括 InternLM、Llama-2 等开源模型和 GPT-4/3.5 等基于 API 的闭源模型。

  • DemoGPT:

  • 地址:https://github.com/melih-unsal/DemoGPT

  • 简介:⚡ DemoGPT 使您只需使用提示即可创建快速演示。 ⚡

  • ChatDev:

  • 地址:https://github.com/OpenBMB/ChatDev

  • 简介:ChatDev 是一家虚拟软件公司,通过担任不同角色的各种智能代理进行运营,包括首席执行官、首席技术官、程序员、测试员等。 这些代理形成了一个多代理组织结构,并因“通过编程彻底改变数字世界”的使命而团结在一起。 ChatDev 中的代理通过参加专门的功能研讨会进行协作,包括设计、编码、测试和记录等任务。

2.3 其他应用

  • wenda:

  • 地址:https://github.com/wenda-LLM/wenda

  • 简介:一个 LLM 调用平台。为小模型外挂知识库查找和设计自动执行动作,实现不亚于于大模型的生成能力。

  • JittorLLMs:

  • 地址:https://github.com/Jittor/JittorLLMs

  • 简介:计图大模型推理库:笔记本没有显卡也能跑大模型,具有成本低,支持广,可移植,速度快等优势。

  • LMFlow:

  • 地址:https://github.com/OptimalScale/LMFlow

  • 简介:LMFlow 是香港科技大学 LMFlow 团队开发的大模型微调工具箱。LMFlow 工具箱具有可扩展性强、高效、方便的特性。LMFlow 仅使用 180K 条数据微调,即可得到在 Huggingface 榜单第一名的 Robin 模型。LMFlow 支持用户快速训练个性化模型,仅需单张 3090 和 5 个小时即可微调 70 亿参数定制化模型。

  • fastllm:

  • 地址:https://github.com/ztxz16/fastllm

  • 简介:纯 c++的全平台 llm 加速库,chatglm-6B 级模型单卡可达 10000+token / s,支持 moss, chatglm, baichuan 模型,手机端流畅运行。

  • WebCPM

  • 地址:https://github.com/thunlp/WebCPM

  • 简介:一个支持可交互网页搜索的中文大模型。

  • GPT Academic:

  • 地址:https://github.com/binary-husky/gpt_academic

  • 简介:为 GPT/GLM 提供图形交互界面,特别优化论文阅读润色体验,支持并行问询多种 LLM 模型,支持清华 chatglm 等本地模型。兼容复旦 MOSS, llama, rwkv, 盘古等。

  • ChatALL:

  • 地址:https://github.com/sunner/ChatALL

  • 简介:ChatALL(中文名:齐叨)可以把一条指令同时发给多个 AI,可以帮助用户发现最好的回答。

  • CreativeChatGLM:

  • 地址:https://github.com/ypwhs/CreativeChatGLM

  • 简介:可以使用修订和续写的功能来生成创意内容,可以使用“续写”按钮帮 ChatGLM 想一个开头,并让它继续生成更多的内容,你可以使用“修订”按钮修改最后一句 ChatGLM 的回复。

  • docker-llama2-chat:

  • 地址:https://github.com/soulteary/docker-llama2-chat

  • 简介:开源了一个只需要三步就可以上手 LLaMA2 的快速部署方案。

  • ChatGLM2-Voice-Cloning:

  • 地址:https://github.com/KevinWang676/ChatGLM2-Voice-Cloning

  • 简介:实现了一个可以和喜欢的角色沉浸式对话的应用,主要采用 ChatGLM2+声音克隆+视频对话的技术。

  • Flappy

  • 地址:https://github.com/pleisto/flappy

  • 简介:一个产品级面向所有程序员的 LLM SDK,

3.数据集

3.1 预训练数据集

  • MNBVC

  • 地址:https://github.com/esbatmop/MNBVC

  • 数据集说明:超大规模中文语料集,不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC 数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网收集,且在持续更新中。

  • WuDaoCorporaText

  • 地址:https://data.baai.ac.cn/details/WuDaoCorporaText

  • 数据集说明:WuDaoCorpora 是北京智源人工智能研究院(智源研究院)构建的大规模、高质量数据集,用于支撑大模型训练研究。目前由文本、对话、图文对、视频文本对四部分组成,分别致力于构建微型语言世界、提炼对话核心规律、打破图文模态壁垒、建立视频文字关联,为大模型训练提供坚实的数据支撑。

  • CLUECorpus2020

  • 地址:https://github.com/CLUEbenchmark/CLUECorpus2020

  • 数据集说明:通过对 Common Crawl 的中文部分进行语料清洗,最终得到 100GB 的高质量中文预训练语料,可直接用于预训练、语言模型或语言生成任务以及专用于简体中文 NLP 任务的小词表。

  • WanJuan-1.0

  • 地址:https://opendatalab.org.cn/WanJuan1.0

  • 数据集说明:书生·万卷 1.0 为书生·万卷多模态语料库的首个开源版本,包含文本数据集、图文数据集、视频数据集三部分,数据总量超过 2TB。 目前,书生·万卷 1.0 已被应用于书生·多模态、书生·浦语的训练。通过对高质量语料的“消化”,书生系列模型在语义理解、知识问答、视觉理解、视觉问答等各类生成式任务表现出的优异性能。

3.2 SFT 数据集

  • RefGPT:基于 RefGPT 生成大量真实和定制的对话数据集

  • 地址:https://github.com/DA-southampton/RedGPT

  • 数据集说明:包括 RefGPT-Fact 和 RefGPT-Code 两部分,其中 RefGPT-Fact 给出了 5 万中文的关于事实性知识的多轮对话,RefGPT-Code 给出了 3.9 万中文编程相关的多轮对话数据。

  • COIG

  • 地址:https://huggingface.co/datasets/BAAI/COIG

  • 数据集说明:维护了一套无害、有用且多样化的中文指令语料库,包括一个人工验证翻译的通用指令语料库、一个人工标注的考试指令语料库、一个人类价值对齐指令语料库、一个多轮反事实修正聊天语料库和一个 leetcode 指令语料库。

  • generated_chat_0.4M:

  • 地址:https://huggingface.co/datasets/BelleGroup/generated_chat_0.4M

  • 数据集说明:包含约 40 万条由 BELLE 项目生成的个性化角色对话数据,包含角色介绍。但此数据集是由 ChatGPT 产生的,未经过严格校验,题目或解题过程可能包含错误。

  • alpaca_chinese_dataset:

  • 地址:https://github.com/hikariming/alpaca_chinese_dataset

  • 数据集说明:根据斯坦福开源的 alpaca 数据集进行中文翻译,并再制造一些对话数据

  • Alpaca-CoT:

  • 地址:https://github.com/PhoebusSi/Alpaca-CoT

  • 数据集说明:统一了丰富的 IFT 数据(如 CoT 数据,目前仍不断扩充)、多种训练效率方法(如 lora,p-tuning)以及多种 LLMs,三个层面上的接口,打造方便研究人员上手的 LLM-IFT 研究平台。

  • pCLUE:

  • 地址:https://github.com/CLUEbenchmark/pCLUE

  • 数据集说明:基于提示的大规模预训练数据集,用于多任务学习和零样本学习。包括 120 万训练数据,73 个 Prompt,9 个任务。

  • firefly-train-1.1M:

  • 地址:https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M

  • 数据集说明:23 个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为 115 万

  • BELLE-data-1.5M:

  • 地址:https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M

  • 数据集说明:通过 self-instruct 生成,使用了中文种子任务,以及 openai 的 text-davinci-003 接口,涉及 175 个种子任务

  • Chinese Scientific Literature Dataset:

  • 地址:https://github.com/ydli-ai/csl

  • 数据集说明:中文科学文献数据集(CSL),包含 396,209 篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)以及简单的 prompt

  • Chinese medical dialogue data:

  • 地址:https://github.com/Toyhom/Chinese-medical-dialogue-data

  • 数据集说明:中文医疗对话数据集,包括:<Andriatria_男科> 94596 个问答对 <IM_内科> 220606 个问答对 <OAGD_妇产科> 183751 个问答对 <Oncology_肿瘤科> 75553 个问答对 <Pediatric_儿科> 101602 个问答对 <Surgical_外科> 115991 个问答对 总计 792099 个问答对。

  • Huatuo-26M:

  • 地址:https://github.com/FreedomIntelligence/Huatuo-26M

  • 数据集说明:Huatuo-26M 是一个中文医疗问答数据集,此数据集包含了超过 2600 万个高质量的医疗问答对,涵盖了各种疾病、症状、治疗方式、药品信息等多个方面。Huatuo-26M 是研究人员、开发者和企业为了提高医疗领域的人工智能应用,如聊天机器人、智能诊断系统等需要的重要资源。

  • Alpaca-GPT-4:

  • 地址:https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

  • 数据集说明:Alpaca-GPT-4 是一个使用 self-instruct 技术,基于 175 条中文种子任务和 GPT-4 接口生成的 50K 的指令微调数据集。

  • InstructionWild

  • 地址:https://github.com/XueFuzhao/InstructionWild

  • 数据集说明:InstructionWild 是一个从网络上收集自然指令并过滤之后使用自然指令结合 ChatGPT 接口生成指令微调数据集的项目。主要的指令来源:Twitter、CookUp.AI、Github 和 Discard。

  • ShareChat

  • 地址:https://paratranz.cn/projects/6725

  • 数据集说明:一个倡议大家一起翻译高质量 ShareGPT 数据的项目。

  • 项目介绍:清洗/构造/翻译中文的 ChatGPT 数据,推进国内 AI 的发展,人人可炼优质中文 Chat 模型。本数据集为 ChatGPT 约九万个对话数据,由 ShareGPT API 获得(英文 68000,中文 11000 条,其他各国语言)。项目所有数据最终将以 CC0 协议并入 Multilingual Share GPT 语料库。

  • Guanaco

  • 地址:https://huggingface.co/datasets/JosephusCheung/GuanacoDataset

  • 数据集说明:一个使用 Self-Instruct 的主要包含中日英德的多语言指令微调数据集。

  • chatgpt-corpus

  • 地址:https://github.com/PlexPt/chatgpt-corpus

  • 数据集说明:开源了由 ChatGPT3.5 生成的 300 万自问自答数据,包括多个领域,可用于用于训练大模型。

  • SmileConv

  • 地址:https://github.com/qiuhuachuan/smile

  • 数据集说明:数据集通过 ChatGPT 改写真实的心理互助 QA 为多轮的心理健康支持多轮对话(single-turn to multi-turn inclusive language expansion via ChatGPT),该数据集含有 56k 个多轮对话,其对话主题、词汇和篇章语义更加丰富多样,更加符合在长程多轮对话的应用场景。

3.3 偏好数据集

  • CValues

  • 地址:https://github.com/X-PLUG/CValues

  • 数据集说明:该项目开源了数据规模为 145k 的价值对齐数据集,该数据集对于每个 prompt 包括了拒绝 &正向建议 (safe and reponsibility) > 拒绝为主(safe) > 风险回复(unsafe)三种类型,可用于增强 SFT 模型的安全性或用于训练 reward 模型。

  • GPT-4-LLM

  • 地址:https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

  • 数据集说明:该项目开源了由 GPT4 生成的多种数据集,包括通过 GPT4 生成的中英 PPO 数据,可以用于奖励模型的训练。

  • zhihu_rlhf_3k

  • 地址:https://huggingface.co/datasets/liyucheng/zhihu_rlhf_3k

  • 数据集说明:该项目开源了 3k+条基于知乎问答的人类偏好数据集,每个实际的知乎问题下给出了赞同数据较高(chosen)和较低(rejected)的回答,可以用于奖励模型的训练。

  • hh_rlhf_cn

  • 地址:https://huggingface.co/datasets/dikw/hh_rlhf_cn

  • 数据集说明:基于 Anthropic 论文 Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback 开源的 helpful 和 harmless 数据,使用翻译工具进行了翻译。

  • chatbot_arena_conversations

  • 地址:https://huggingface.co/datasets/lmsys/chatbot_arena_conversations

  • 数据集说明:该偏好数据集包含 20 个 LLM 的输出,其中包括 GPT-4 和 Claude-v1 等更强的 LLM,它还包含这些最先进模型的许多失败案例。包含来自超过 13K 个用户的无限制对话。

  • UltraFeedback

  • 地址:https://github.com/OpenBMB/UltraFeedback

  • 数据集说明:该数据集是一个大规模、细粒度、多样化的偏好数据集,用于训练强大的奖励模型和批评者模型。该工作从各种资源(包括 UltraChat、ShareGPT、Evol-Instruct、TruthfulQA、FalseQA 和 FLAN,数据集统计数据请参见此处)中收集了约 64k 条提示。然后使用这些提示来查询多个 LLM(模型列表请参见此处),并为每个提示生成 4 个不同的回复,从而得到总共 256k 个样本。

4. LLM 训练微调框架

  • DeepSpeed Chat:

  • 地址:https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-chat

  • 简介:该项目提供了一键式 RLHF 训练框架,只需一个脚本即可实现多个训练步骤,包括 SFT,奖励模型微调和基于人类反馈的强化学习(RLHF),此外还实现了 DeepSpeed HE,统一的高效混合引擎,达到训练和推理引擎之间的过渡是无缝的。

  • LLaMA Efficient Tuning:

  • 地址:https://github.com/hiyouga/LLaMA-Efficient-Tuning

  • 简介:该项目提供了易于使用的基于 PEFT 的 LLaMA 微调框架,实现了包括全参数,LoRA,QLoRA 等的预训练,指令微调和 RLHF,并支持 LLaMA, BLOOM, Falcon, Baichuan, InternLM 等底座模型。

  • ChatGLM Efficient Tuning:

  • 地址:https://github.com/hiyouga/ChatGLM-Efficient-Tuning

  • 简介:该项目提供了基于 PEFT 的高效 ChatGLM 微调,支持 LoRA,P-Tuning V2,全参数微调等模式,并适配了多个微调数据集。

  • bert4torch:

  • 地址:https://github.com/Tongjilibo/bert4torch

  • 简介:该项目提供了一个大模型的训练和部署框架,包含了目前主要的开源大模型,llama 系列,chatglm,bloom 系列等等,同时还给出了预训练和微调的示例。

5. LLM 推理部署框架

  • vLLM:

  • 地址:https://github.com/vllm-project/vllm

  • 简介:适用于大批量 Prompt 输入,并对推理速度要求高的场景。吞吐量比 HuggingFace Transformers 高 14x-24 倍,比 HuggingFace Text Generation Inference(TGI)高 2.2x-2.5 倍,实现了 Continuous batching 和 PagedAttention 等技巧。但该框架对适配器(LoRA、QLoRA 等)的支持不友好且缺少权重量化。

  • DeepSpeed-MII:

  • 地址:https://github.com/microsoft/DeepSpeed-MII

  • 简介:支持多个机器之间的负载均衡,支持不同的模型库(如 Hugging Face、FairSeq 等),支持模型量化推理。

  • text-generation-inference:

  • 地址:https://github.com/huggingface/text-generation-inference

  • 简介:用于文本生成推断的 Rust、Python 和 gRPC 部署框架,可以监控服务器负载,实现了 flash attention 和 Paged attention,所有的依赖项都安装在 Docker 中:支持 HuggingFace 模型;但该框架对适配器(LoRA、QLoRA 等)的支持不友好。

  • CTranslate2

  • 地址:https://github.com/OpenNMT/CTranslate2

  • 简介:基于 C++和 python 的推理框架,支持在 CPU 和 GPU 上并行和异步执行,且支持 prompt 缓存及量化。但缺少对适配器(LoRA、QLoRA 等)的支持。

  • OpenLLM

  • 地址:https://github.com/bentoml/OpenLLM

  • 简介:支持将要部署的 LLM 连接多个适配器,可以实现只使用一个底座模型来执行多个特定的任务;支持量化推理和 LangChain 集成。但对批处理和分布式推理的支持相对不友好。

  • MLC LLM

  • 地址:https://github.com/mlc-ai/mlc-llm

  • 简介:支持不同平台上的不同设备部署推理,包括移动设备(iOS 或 Android 设备等)的高效推理,压缩等。但对大规模批量调用相对不友好。

  • LightLLM:

  • 地址:https://github.com/ModelTC/lightllm

  • 简介:一个基于 Python 的 LLM(大型语言模型)推理和服务框架,该框架采用轻量级设计、易于扩展和高速性能,LightLLM 引入了一种更细粒度的 kv cache 管理算法 TokenAttention,并设计了一个与 TokenAttention 高效配合的 Efficient Router 调度实现。在 TokenAttention 和 Efficient Router 的相互作用下,LightLLM 在大部分场景下都能获得比 vLLM 和 Text Generation Inference 得到更高的吞吐,部分场景下可以得到 4 倍左右的性能提升。

  • AirLLM:

  • 地址:https://github.com/lyogavin/Anima/tree/main/air_llm

  • 简介:该项目开源了一个优化 inference 内存的推理框架,可实现 4GB 单卡 GPU 可以运行 70B 大语言模型推理。不需要任何损失模型性能的量化和蒸馏,剪枝等模型压缩,该项目采用了分层推理的技术以在较低的内存下实现大模型推理。

  • LMDeploy:

  • 地址:https://github.com/InternLM/lmdeploy

  • 简介:该项目支持 LLM(大语言模型)和 VL(视觉语言模型)任务在 NVIDIA 设备上量化、推理和服务。LMDeploy 支持有状态的推理,可以缓存对话,记住历史。它实现了 Persistent Batch(即 Continuous Batch),Blocked K/V Cache,动态拆分和融合,张量并行,高效的计算 kernel 等重要特性。推理性能是 vLLM 的 1.8 倍以上。其 4bit 量化模型推理性能达 FP16 的 2.4 倍以上。

6. LLM 评测

  • FlagEval (天秤)大模型评测体系及开放平台

  • 地址:https://github.com/FlagOpen/FlagEval

  • 简介:旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用 AI 方法实现对主观评测的辅助,大幅提升评测的效率和客观性。FlagEval (天秤)创新构建了“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。

  • C-Eval: 构造中文大模型的知识评估基准:

  • 地址:https://github.com/SJTU-LIT/ceval

  • 简介:构造了一个覆盖人文,社科,理工,其他专业四个大方向,52 个学科(微积分,线代 …),从中学到大学研究生以及职业考试,一共 13948 道题目的中文知识和推理型测试集。此外还给出了当前主流中文 LLM 的评测结果。

  • OpenCompass:

  • 地址:https://github.com/InternLM/opencompass

  • 简介:由上海 AI 实验室发布的面向大模型评测的一站式平台。主要特点包括:开源可复现;全面的能力维度:五大维度设计,提供 50+ 个数据集约 30 万题的的模型评测方案;丰富的模型支持:已支持 20+ HuggingFace 及 API 模型;分布式高效评测:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测;多样化评测范式:支持零样本、小样本及思维链评测,结合标准型或对话型提示词模板;灵活化拓展。

  • SuperCLUElyb: SuperCLUE 琅琊榜

  • 地址:https://github.com/CLUEbenchmark/SuperCLUElyb

  • 简介:中文通用大模型匿名对战评价基准,这是一个中文通用大模型对战评价基准,它以众包的方式提供匿名、随机的对战。他们发布了初步的结果和基于 Elo 评级系统的排行榜。

  • GAOKAO-Bench:

  • 地址:https://github.com/OpenLMLab/GAOKAO-Bench

  • 简介:GAOKAO-bench 是一个以中国高考题目为数据集,测评大模型语言理解能力、逻辑推理能力的测评框架,收集了 2010-2022 年全国高考卷的题目,其中包括 1781 道客观题和 1030 道主观题,构建起 GAOKAO-bench 的数据部分。

  • AGIEval:

  • 地址:https://github.com/ruixiangcui/AGIEval

  • 简介:由微软发布的一项新型基准测试,这项基准选取 20 种面向普通人类考生的官方、公开、高标准往常和资格考试,包括普通大学入学考试(中国高考和美国 SAT 考试)、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等等。

  • Xiezhi:

  • 地址:https://github.com/mikegu721/xiezhibenchmark

  • 简介:由复旦大学发布的一个综合的、多学科的、能够自动更新的领域知识评估 Benchmark,包含了哲学、经济学、法学、教育学、文学、历史学、自然科学、工学、农学、医学、军事学、管理学、艺术学这 13 个学科门类,24 万道学科题目,516 个具体学科,249587 道题目。

  • Open LLM Leaderboard:

  • 地址:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

  • 简介:由 HuggingFace 组织的一个 LLM 评测榜单,目前已评估了较多主流的开源 LLM 模型。评估主要包括 AI2 Reasoning Challenge, HellaSwag, MMLU, TruthfulQA 四个数据集上的表现,主要以英文为主。

  • CMMLU:

  • 地址:https://github.com/haonan-li/CMMLU

  • 简介:CMMLU 是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU 涵盖了从基础学科到高级专业水平的 67 个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外,CMMLU 中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。

  • MMCU:

  • 地址:https://github.com/Felixgithub2017/MMCU

  • 简介:该项目提供对中文大模型语义理解能力的测试,评测方式、评测数据集、评测记录都公开,确保可以复现。该项目旨在帮助各位研究者们评测自己的模型性能,并验证训练策略是否有效。

  • chinese-llm-benchmark:

  • 地址:https://github.com/jeinlee1991/chinese-llm-benchmark

  • 简介:中文大模型能力评测榜单:覆盖百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle / chatglm6b 等开源大模型,多维度能力评测。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!

  • Safety-Prompts:

  • 地址:https://github.com/thu-coai/Safety-Prompts

  • 简介:由清华大学提出的一个关于 LLM 安全评测 benchmark,包括安全评测平台等,用于评测和提升大模型的安全性,囊括了多种典型的安全场景和指令攻击的 prompt。

  • PromptCBLUE: 中文医疗场景的 LLM 评测基准

  • 地址:https://github.com/michael-wzhu/PromptCBLUE

  • 简介:为推动 LLM 在医疗领域的发展和落地,由华东师范大学联合阿里巴巴天池平台,复旦大学附属华山医院,东北大学,哈尔滨工业大学(深圳),鹏城实验室与同济大学推出 PromptCBLUE 评测基准, 将 16 种不同的医疗场景 NLP 任务全部转化为基于提示的语言生成任务,形成首个中文医疗场景的 LLM 评测基准。

  • HalluQA: 中文幻觉评估基准

  • 地址:https://github.com/xiami2019/HalluQA

  • 简介:该项目提出了一个名为 HalluQA 的基准测试,用于衡量中文大型语言模型中的幻觉现象。HalluQA 包含 450 个精心设计的对抗性问题,涵盖多个领域,并考虑了中国历史文化、风俗和社会现象。在构建 HalluQA 时,考虑了两种类型的幻觉:模仿性虚假和事实错误,并基于 GLM-130B 和 ChatGPT 构建对抗性样本。为了评估,设计了一种使用 GPT-4 进行自动评估的方法,判断模型输出是否是幻觉。

7. LLM 教程

7.1 LLM 基础知识

  • HuggingLLM:

  • 地址:https://github.com/datawhalechina/hugging-llm

  • 简介:介绍 ChatGPT 原理、使用和应用,降低使用门槛,让更多感兴趣的非 NLP 或算法专业人士能够无障碍使用 LLM 创造价值。

  • LLMsPracticalGuide:

  • 地址:https://github.com/Mooler0410/LLMsPracticalGuide

  • 简介:该项目提供了关于 LLM 的一系列指南与资源精选列表,包括 LLM 发展历程、原理、示例、论文等。

7.2 提示工程教程

  • 面向开发者的 LLM 入门课程:

  • 地址:https://github.com/datawhalechina/prompt-engineering-for-developers

  • 简介:一个中文版的大模型入门教程,围绕吴恩达老师的大模型系列课程展开,主要包括:吴恩达《ChatGPT Prompt Engineering for Developers》课程中文版,吴恩达《Building Systems with the ChatGPT API》课程中文版,吴恩达《LangChain for LLM Application Development》课程中文版等。

  • 提示工程指南:

  • 地址:https://www.promptingguide.ai/zh

  • 简介:该项目基于对大语言模型的浓厚兴趣,编写了这份全新的提示工程指南,介绍了大语言模型相关的论文研究、学习指南、模型、讲座、参考资料、大语言模型能力以及与其他与提示工程相关的工具。

  • awesome-chatgpt-prompts-zh:

  • 地址:https://github.com/PlexPt/awesome-chatgpt-prompts-zh

  • 简介:该项目是 ChatGPT 中文调教指南。包括各种场景使用指南,让 chatgpt 知道怎么听你的话,对指令构造可以提供一些参考。

7.3 LLM 应用教程

  • LangChain 🦜️🔗 中文网,跟着 LangChain 一起学 LLM/GPT 开发:

  • 地址:https://www.langchain.asia

  • 简介:Langchain 的中文文档,由是两个在 LLM 创业者维护,希望帮助到从刚进入 AI 应用开发的朋友们。

  • OpenAI Cookbook:

  • 地址:https://github.com/openai/openai-cookbook

  • 简介:该项目是 OpenAI 提供的使用 OpenAI API 的示例和指导,其中包括如何构建一个问答机器人等教程,能够为从业人员开发类似应用时带来指导。

  • 构筑大语言模型应用:应用开发与架构设计:

  • 地址:https://github.com/phodal/aigc

  • 简介:该项目开源了一本关于 LLM 在真实世界应用的开源电子书,介绍了大语言模型的基础知识和应用,以及如何构建自己的模型。其中包括 Prompt 的编写、开发和管理,探索最好的大语言模型能带来什么,以及 LLM 应用开发的模式和架构设计。

7.4 LLM 实战教程

  • LLMs 九层妖塔:

  • 地址:https://github.com/km1994/LLMsNineStoryDemonTower

  • 简介:ChatGLM、Chinese-LLaMA-Alpaca、MiniGPT-4、FastChat、LLaMA、gpt4all 等实战与经验。

  • llm-action:

  • 地址:https://github.com/liguodongiot/llm-action

  • 简介:该项目提供了一系列 LLM 实战的教程和代码,包括 LLM 的训练、推理、微调以及 LLM 生态相关的一些技术文章等。

  • llm 大模型训练专栏:

  • 地址:https://www.zhihu.com/column/c_1252604770952642560

  • 简介:该项目提供了一系列 LLM 前言理论和实战实验,包括论文解读与洞察分析。

  • 书生·浦语大模型实战营

  • 地址:https://github.com/InternLM/tutorial

  • 简介:该课程由上海人工智能实验室重磅推出。课程包括大模型微调、部署与评测全链路,目的是为广大开发者搭建大模型学习和实践开发的平台。

8. 相关仓库

  • FindTheChatGPTer:

  • 地址:https://github.com/chenking2020/FindTheChatGPTer

  • 简介:ChatGPT 爆火,开启了通往 AGI 的关键一步,本项目旨在汇总那些 ChatGPT 的开源平替们,包括文本大模型、多模态大模型等,为大家提供一些便利。

  • LLM_reviewer:

  • 地址:https://github.com/SpartanBin/LLM_reviewer

  • 简介:总结归纳近期井喷式发展的大语言模型,以开源、规模较小、可私有化部署、训练成本较低的‘小羊驼类’模型为主。

  • Awesome-AITools:

  • 地址:https://github.com/ikaijua/Awesome-AITools

  • 简介:收藏整理了 AI 相关的实用工具、评测和相关文章。

  • open source ChatGPT and beyond:

  • 地址:https://github.com/SunLemuria/open_source_chatgpt_list

  • 简介:This repo aims at recording open source ChatGPT, and providing an overview of how to get involved, including: base models, technologies, data, domain models, training pipelines, speed up techniques, multi-language, multi-modal, and more to go.

  • Awesome Totally Open Chatgpt:

  • 地址:https://github.com/nichtdax/awesome-totally-open-chatgpt

  • 简介:This repo record a list of totally open alternatives to ChatGPT.

  • Awesome-LLM:

  • 地址:https://github.com/Hannibal046/Awesome-LLM

  • 简介:This repo is a curated list of papers about large language models, especially relating to ChatGPT. It also contains frameworks for LLM training, tools to deploy LLM, courses and tutorials about LLM and all publicly available LLM checkpoints and APIs.

  • DecryptPrompt:

  • 地址:https://github.com/DSXiangLi/DecryptPrompt

  • 简介:总结了 Prompt&LLM 论文,开源数据 &模型,AIGC 应用。

  • Awesome Pretrained Chinese NLP Models:

  • 地址:https://github.com/lonePatient/awesome-pretrained-chinese-nlp-models

  • 简介:收集了目前网上公开的一些高质量中文预训练模型。

  • ChatPiXiu:

  • 地址:https://github.com/catqaq/ChatPiXiu

  • 简介:该项目旨在打造全面且实用的 ChatGPT 模型库和文档库。当前 V1 版本梳理了包括:相关资料调研+通用最小实现+领域/任务适配等。

  • LLM-Zoo:

  • 地址:https://github.com/DAMO-NLP-SG/LLM-Zoo

  • 简介:该项目收集了包括开源和闭源的 LLM 模型,具体包括了发布时间,模型大小,支持的语种,领域,训练数据及相应论文/仓库等。

  • LLMs-In-China:

  • 地址:https://github.com/wgwang/LLMs-In-China

  • 简介:该项目旨在记录中国大模型发展情况,同时持续深度分析开源开放的大模型以及数据集的情况。

  • BMList:

  • 地址:https://github.com/OpenBMB/BMList

  • 简介:该项目收集了参数量超过 10 亿的大模型,并梳理了各个大模型的适用模态、发布的机构、适合的语种,参数量和开源地址、API 等信息。

  • awesome-free-chatgpt:

  • 地址:https://github.com/LiLittleCat/awesome-free-chatgpt

  • 简介:该项目收集了免费的 ChatGPT 镜像网站列表,ChatGPT 的替代方案,以及构建自己的 ChatGPT 的教程工具等。

  • Awesome-Domain-LLM:

  • 地址:https://github.com/luban-agi/Awesome-Domain-LLM

  • 简介:该项目收集和梳理垂直领域的开源模型、数据集及评测基准。

发布于: 2024-04-29阅读数: 2
用户头像

本博客将不定期更新关于NLP等领域相关知识 2022-01-06 加入

本博客将不定期更新关于机器学习、强化学习、数据挖掘以及NLP等领域相关知识,以及分享自己学习到的知识技能,感谢大家关注!

评论

发布
暂无评论
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等_人工智能_汀丶人工智能_InfoQ写作社区