Training Qwen2.5-0.5B-Instruct on Reddit post summarization with GRPO on my 3x Mac Minis — add METEOR as quality reward!

reddit-localllama · www.reddit.com ·1 pts·1 replies ↗ ·8m

Setup: 3x Mac Minis in a cluster running MLX. One node drives training, two push rollouts via vLLM.