头像

远山黛色莫轻尘

帅气的我简直无法用语言描述!

从 1.56% 到 62.9%:SFT 推理微调优化实战

读完这篇文章,你将用监督微调(SFT)把一个 1.5B 规模的数学模型在 GSM8K 上的零样本推理正确率从 1.56% → 62.9%,同时把输出格式遵循率从 18.9% → 100%。我们将完整走...
头像2天前
000