Погружение в LLM часть вторая

В первой части мы разобрали практическую часть погружения в LLM.

В этой части мы поговорим про ключевые пейперы, которые помогут в понимании LLM и прохождение собеседований =) Но об этом позже.

Все начинается с первой гпт

Затем рекомендую прочитать работу про InstructGPT. Там раскрыта тема обучения с фидбеком от человека.

Дальше есть пара интересных пейперов:

Затем рекомендую ознакомиться с двумя воистину знаковых пейпера: LORA и QLORA, которые решают следующие проблемы:

  • скорость обучения
  • вычислительные ресурсы
  • эффективность памяти

Еще два не менее важных пейпера PPO и DPO. Понимание этих работ поможет в ревард моделинге.

Ну и на последок:

Всем приятного чтения

Share it

Если вам понравилась заметка - подписывайтесь на мой канал в телеграме https://t.me/renat_alimbekov или вы можете поддержать меня Become a Patron!


Интересные записи в этой рубрике: