前 Open AI 的 Andrej Karpathy 是真的有情怀。。。
他用 Py 标准库和一共 243 行代码,构筑了一个从头训练 GPT 的完整算法。
一切都简化到最基本的数学操作。
纯 Python 构建,不依赖外部库(如 PyTorch)。
包括数据加载、Tokenizer、Transformer 架构(多层、自注意力、Feed Forward 等)、前向传播、交叉熵损失计算、反向传播和参数更新所有模型训练和推理的关键操作。
从随机初始化权重开始,通过多次迭代优化模型,直到生成文本为止。
这真的是纯粹的为了教育。。。
代码是一个 gist:网页链接