从零训练大模型(32a):干预实验之基线模型训练
作者继续其“从零构建大语言模型”系列,尝试在自有硬件上训练一个尽可能好的基础模型。文章介绍了在 RTX 3090 上用两天训练初版模型后的表现,并以此为起点讨论后续改进实验中的基线模型训练。
Source
这里收集 gilesthomas.com 最近同步到 opc.ren 的文章。原站地址:https://gilesthomas.com
作者继续其“从零构建大语言模型”系列,尝试在自有硬件上训练一个尽可能好的基础模型。文章介绍了在 RTX 3090 上用两天训练初版模型后的表现,并以此为起点讨论后续改进实验中的基线模型训练。
作者在完成《Build a Large Language Model (from Scratch)》后训练了7个基于书中GPT-2代码的基础模型,3个本地、4个云端,并已发布在Hugging Face。
作者继续在完成《Build a Large Language Model (from Scratch)》后做“加分”项目,回顾上次使用书中 GPT‑2 架构在 Lambda Labs 上训练四个基础模型,并进一步分析“LLM 作为评判者”的结果。