全部标签 



写点什么

登录注册

AI 日课 @20230408：如何基于大模型训练一个自己的数字克隆

作者：无人之路

2023-04-09
浙江
本文字数：893 字
阅读完需：约 3 分钟

AI日课@20230408：如何基于大模型训练一个自己的数字克隆

AI日课@20230408：如何基于大模型训练一个自己的数字克隆

学习 1：如何用自己的数据训练一个大语言模型

昨天看了一篇非常有意思的文章：

我用我的10万条微信聊天记录和 280 篇博客文章，做了我自己的数字克隆AI

作者王登科（DK）同学，使用如标题所说的 10w 条微信记录和 280 篇博客文章，训练了一个自己的数字克隆，可以基于作者的经历和他的说话风格和你聊天。下面是我和他的一次对话，可以感受一下 DK 的风格。

这个事情有启发的点：

从技术上讲，人人都可拥有大模型的时代已经来了。作者使用的基础 LLM 是 chatglm-6b，它是清华大学开源的一个大语言模型。现在社区里面开源的还有 LLama 系列，包括 Alpaca、Koala 等。ChatGPT 的不开源，导致了非常多的开源平替的产生，而且会越来越多。

要训练自己的大模型，关键是收集和整理自己的数据。作者详细介绍了收集和清洗自我数据的方法。从数据内容上看，原始数据有接近 80GB 的微信聊天记录和他自己的博客站点；从工具上看，使用了 WechatExporter 和他自己写的大量脚本。在这些数据的加持下，通过 chatglm_finetuning 才实现了开头提到的数字克隆。

“我拥有多少自己的数据？”这是一个自然要问的问题。我自己也有微信聊天记录；不过去年倒腾手机删除过一次，所剩不多。不过我自己有写工作笔记的习惯，从 2009 年开始工作起，就有每天的工作笔记；虽然分散在不同的笔记系统里，onenote、evernote、有道云笔记、notion、飞书、备忘录都有，但可以汇总起来。不过主要是工作的笔记，记录的都是工作上做了什么、面临什么需求、怎么做的、遇到什么问题、如何解决的。。。，用它们去训练，得到的应该是一个非常无聊的工作对话机器人。还好，我还有写东西的习惯。大学时候曾经写过一些诗歌；还有很多日记；有段时间是写周记的；这些年也零星写公众号。这个可以贡献一部分关于文字风格的数据。这些就是关于自我的全部数据了，应该可以训练一个数字克隆了。

DK 的实践给结合自己数据微调大模型做了一个鲜活 demo，提供关于 how 的充分说明，值得学习。

近期 AI 日课：

AI日课@20230407：别为下一代过虑；现在多多体验产品

AI日课@20230406：一次毫不费力的ChatGPT内部分享

AI日课@20230405：基于LLM的应用开发框架LangChain

发布于: 刚刚阅读数: 5

版权声明: 本文为 InfoQ 作者【无人之路】的原创文章。

原文链接:【http://xie.infoq.cn/article/ca9d06740125c4071265c78c5】。文章转载请联系作者。

无人之路

关注

无人之路，自己领航。 2018-04-25 加入

喜欢写点东西的数据人，自动驾驶从业者。公众号同名，欢迎加微信yangls06交流。

评论

发布

暂无评论