Погружение в LLM часть первая

Я тут начал погружаться в LLM чуть глубже и лично для меня гораздо проще начинать погружение через практику.

Таким образом можно понять все ключевые концепции и наметить себе список пейперов для дальнейшего ознакомления.

Начал я с заметки StackLLaMA: A hands-on guide to train LLaMA with RLHF

Тут вы сразу сможете ознакомиться с концепциями Reinforcement Learning from Human Feedback, эффективной тренировкой с помощью LoRA, PPO.

Так же вы познакомитесь с зоопарком библиотек huggingface: accelerate, bitsandbytes, peft и trl.

В заметке используется StackExchange датасет, но для разнообразия могу посоветовать вам использовать датасет Anthropic/hh-rlhf

Во второй части пройдемся по ключевым пейперам

Share it

Если вам понравилась заметка - подписывайтесь на мой канал в телеграме https://t.me/renat_alimbekov или вы можете поддержать меня Become a Patron!


Интересные записи в этой рубрике: