Unsloth是一款非常流行的高效大模型训练与微调工具。近期Unsloth也宣布支持GRPO。本期视频基于Unsloth官方博客的介绍,分享如何用Unsloth,利用GRPO,训练一款类似DeepSeek R1的具有自主思考推理能力的大模型。
R1 Reasoning | Unsloth Blog
https://unsloth.ai/blog/r1-reasoning
Unsloth GRPO notebook: Llama 3.1 (8B) on Colab
https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3.1_(8B)-GRPO.ipynb
OpenAI GSM8K数据集
https://huggingface.co/datasets/openai/gsm8k