写点什么

AI 日课 @20230408:如何基于大模型训练一个自己的数字克隆

作者:无人之路
  • 2023-04-09
    浙江
  • 本文字数:893 字

    阅读完需:约 3 分钟

AI日课@20230408:如何基于大模型训练一个自己的数字克隆

AI日课@20230408:如何基于大模型训练一个自己的数字克隆


学习 1:如何用自己的数据训练一个大语言模型


昨天看了一篇非常有意思的文章:

我用我的10万条微信聊天记录和 280 篇博客文章,做了我自己的数字克隆AI

作者王登科(DK)同学,使用如标题所说的 10w 条微信记录和 280 篇博客文章,训练了一个自己的数字克隆,可以基于作者的经历和他的说话风格和你聊天。下面是我和他的一次对话,可以感受一下 DK 的风格。



这个事情有启发的点:

  • 从技术上讲,人人都可拥有大模型的时代已经来了。作者使用的基础 LLM 是 chatglm-6b,它是清华大学开源的一个大语言模型。现在社区里面开源的还有 LLama 系列,包括 Alpaca、Koala 等。ChatGPT 的不开源,导致了非常多的开源平替的产生,而且会越来越多。


  • 要训练自己的大模型,关键是收集和整理自己的数据。作者详细介绍了收集和清洗自我数据的方法。从数据内容上看,原始数据有接近 80GB 的微信聊天记录和他自己的博客站点;从工具上看,使用了 WechatExporter 和他自己写的大量脚本。在这些数据的加持下,通过 chatglm_finetuning 才实现了开头提到的数字克隆。


  • “我拥有多少自己的数据?”这是一个自然要问的问题。我自己也有微信聊天记录;不过去年倒腾手机删除过一次,所剩不多。不过我自己有写工作笔记的习惯,从 2009 年开始工作起,就有每天的工作笔记;虽然分散在不同的笔记系统里,onenote、evernote、有道云笔记、notion、飞书、备忘录都有,但可以汇总起来。不过主要是工作的笔记,记录的都是工作上做了什么、面临什么需求、怎么做的、遇到什么问题、如何解决的。。。,用它们去训练,得到的应该是一个非常无聊的工作对话机器人。还好,我还有写东西的习惯。大学时候曾经写过一些诗歌;还有很多日记;有段时间是写周记的;这些年也零星写公众号。这个可以贡献一部分关于文字风格的数据。这些就是关于自我的全部数据了,应该可以训练一个数字克隆了。


  • DK 的实践给结合自己数据微调大模型做了一个鲜活 demo,提供关于 how 的充分说明,值得学习。


近期 AI 日课 :

AI日课@20230407:别为下一代过虑;现在多多体验产品

AI日课@20230406:一次毫不费力的ChatGPT内部分享

AI日课@20230405:基于LLM的应用开发框架LangChain

发布于: 刚刚阅读数: 5
用户头像

无人之路

关注

无人之路,自己领航。 2018-04-25 加入

喜欢写点东西的数据人,自动驾驶从业者。公众号同名,欢迎加微信yangls06交流。

评论

发布
暂无评论
AI日课@20230408:如何基于大模型训练一个自己的数字克隆_ChatGPT_无人之路_InfoQ写作社区