jackaduma/Alpaca-LoRA-RLHF-PyTorch

jackaduma

Fetched on 2026/06/23 00:55

A full pipeline to finetune Alpaca LLM with LoRA and RLHF on consumer hardware. Implementation of RLHF (Reinforcement Learning with Human Feedback) on top of the Alpaca architecture. Basically ChatGPT but with Alpaca - View it on GitHub

Star

Rank

454374

jackaduma

jackaduma / Alpaca-LoRA-RLHF-PyTorch