写点什么

RLHF

0 人感兴趣 · 1 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/92/927c2cffc271a16132322d89b7945bab.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

大模型的三大法宝:Finetune, Prompt Engineering, Reward

编者按:基于基础通用模型构建领域或企业特有模型是目前趋势。本文简明介绍了最大化挖掘语言模型潜力的三大法宝——Finetune, Prompt Engineering和RLHF——的基本概念,并指出了大模型微调面临的工具层面的挑战。

RLHF_RLHF技术文章_InfoQ写作社区