Andrej Karpathy刚发布了一个仅用约 250 行纯 Python 代码就实现了 GPT 训练和推理全过程的演示,非常适合用来理解大型语言模型底层的数学原理。Andrej Karpathy:“新的艺术项目。用243行纯粹的、无依赖的Python代码实现GPT的训练与推理。这包含了所需内容的完整算法部分,其余的一切都只是为了提升效率。我已无法再进一步简化。
其工作原理是将完整的LLM架构和损失函数彻底分解为构成它的最基本数学运算(+、*、**、log、exp),然后通过一个微小的标量自动求导引擎(micrograd)来计算梯度,优化器使用Adam。”
代码在这里:gist.github.com/karpathy/8627fe009c40f57531cb18360106ce95HOW I AI
