用Unsloth利用GRPO，训练一款类似DeepSeek R1推理大模型 – Expend4746

用Unsloth利用GRPO，训练一款类似DeepSeek R1推理大模型

2025-2-08 16:10

|

177

|

0

|

132 字

|

1 分钟内

Unsloth是一款非常流行的高效大模型训练与微调工具。近期Unsloth也宣布支持GRPO。本期视频基于Unsloth官方博客的介绍，分享如何用Unsloth，利用GRPO，训练一款类似DeepSeek R1的具有自主思考推理能力的大模型。

R1 Reasoning | Unsloth Blog
https://unsloth.ai/blog/r1-reasoning

Unsloth GRPO notebook: Llama 3.1 (8B) on Colab
https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3.1_(8B)-GRPO.ipynb

OpenAI GSM8K数据集
https://huggingface.co/datasets/openai/gsm8k

暂无评论

发送评论编辑评论

Markdown

|´・ω・)ノ

ヾ(≧∇≦*)ゝ

(☆ω☆)

（╯‵□′）╯︵┴─┴

￣﹃￣

(/ω＼)

∠( ᐛ 」∠)＿

(๑•̀ㅁ•́ฅ)

→_→

୧(๑•̀⌄•́๑)૭

٩(ˊᗜˋ*)و

(ノ°ο°)ノ

(´இ皿இ｀)

⌇●﹏●⌇

(ฅ´ω`ฅ)

(╯°A°)╯︵○○○

φ(￣∇￣o)

ヾ(´･･｀｡)ノ"

( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃

(ó﹏ò｡)

Σ(っ °Д °;)っ

( ,,´･ω･)ﾉ"(´っω･｀｡)

╮(╯▽╰)╭

o(*////▽////*)q

＞﹏＜

( ๑´•ω•) "(ㆆᴗㆆ)

颜文字

Emoji

小恐龙

花!