В первой части мы разобрали практическую часть погружения в LLM.
В этой части мы поговорим про ключевые пейперы, которые помогут в понимании LLM и прохождение собеседований =) Но об этом позже.
Все начинается с первой гпт
Затем рекомендую прочитать работу про InstructGPT. Там раскрыта тема обучения с фидбеком от человека.
Дальше есть пара интересных пейперов:
Затем рекомендую ознакомиться с двумя воистину знаковых пейпера: LORA и QLORA, которые решают следующие проблемы:
- скорость обучения
- вычислительные ресурсы
- эффективность памяти
Еще два не менее важных пейпера PPO и DPO. Понимание этих работ поможет в ревард моделинге.
Ну и на последок:
Всем приятного чтения
Разговоры о Data Science – закрытый канал для общения на тему карьеры, развития профессиональных навыков и применения навыков на работе.