Source

gilesthomas.com

这里收集 gilesthomas.com 最近同步到 opc.ren 的文章。原站地址：https://gilesthomas.com

Latest from gilesthomas.com

3 items

作者继续其“从零构建大语言模型”系列，尝试在自有硬件上训练一个尽可能好的基础模型。文章介绍了在 RTX 3090 上用两天训练初版模型后的表现，并以此为起点讨论后续改进实验中的基线模型训练。

作者在完成《Build a Large Language Model (from Scratch)》后训练了7个基于书中GPT-2代码的基础模型，3个本地、4个云端，并已发布在Hugging Face。

作者继续在完成《Build a Large Language Model (from Scratch)》后做“加分”项目，回顾上次使用书中 GPT‑2 架构在 Lambda Labs 上训练四个基础模型，并进一步分析“LLM 作为评判者”的结果。