AI 日课 @20230408:如何基于大模型训练一个自己的数字克隆
AI日课@20230408:如何基于大模型训练一个自己的数字克隆
学习 1:如何用自己的数据训练一个大语言模型
昨天看了一篇非常有意思的文章:
我用我的10万条微信聊天记录和 280 篇博客文章,做了我自己的数字克隆AI
作者王登科(DK)同学,使用如标题所说的 10w 条微信记录和 280 篇博客文章,训练了一个自己的数字克隆,可以基于作者的经历和他的说话风格和你聊天。下面是我和他的一次对话,可以感受一下 DK 的风格。
这个事情有启发的点:
从技术上讲,人人都可拥有大模型的时代已经来了。作者使用的基础 LLM 是 chatglm-6b,它是清华大学开源的一个大语言模型。现在社区里面开源的还有 LLama 系列,包括 Alpaca、Koala 等。ChatGPT 的不开源,导致了非常多的开源平替的产生,而且会越来越多。
要训练自己的大模型,关键是收集和整理自己的数据。作者详细介绍了收集和清洗自我数据的方法。从数据内容上看,原始数据有接近 80GB 的微信聊天记录和他自己的博客站点;从工具上看,使用了 WechatExporter 和他自己写的大量脚本。在这些数据的加持下,通过 chatglm_finetuning 才实现了开头提到的数字克隆。
“我拥有多少自己的数据?”这是一个自然要问的问题。我自己也有微信聊天记录;不过去年倒腾手机删除过一次,所剩不多。不过我自己有写工作笔记的习惯,从 2009 年开始工作起,就有每天的工作笔记;虽然分散在不同的笔记系统里,onenote、evernote、有道云笔记、notion、飞书、备忘录都有,但可以汇总起来。不过主要是工作的笔记,记录的都是工作上做了什么、面临什么需求、怎么做的、遇到什么问题、如何解决的。。。,用它们去训练,得到的应该是一个非常无聊的工作对话机器人。还好,我还有写东西的习惯。大学时候曾经写过一些诗歌;还有很多日记;有段时间是写周记的;这些年也零星写公众号。这个可以贡献一部分关于文字风格的数据。这些就是关于自我的全部数据了,应该可以训练一个数字克隆了。
DK 的实践给结合自己数据微调大模型做了一个鲜活 demo,提供关于 how 的充分说明,值得学习。
近期 AI 日课 :
AI日课@20230407:别为下一代过虑;现在多多体验产品
版权声明: 本文为 InfoQ 作者【无人之路】的原创文章。
原文链接:【http://xie.infoq.cn/article/ca9d06740125c4071265c78c5】。文章转载请联系作者。
评论