Основные тенденции в развитии рассуждений LLM

В это заметки хотелось бы раскрыть последние тенденции и исследования в области ризонинга и новых техник промптинга улучшающих аутпут.

По простому ризонинг это процесс многошаговых рассуждений, где выполняется несколько последовательных шагов размышлений и где каждый шаг зависит от предыдущего.

Может показаться, что Reasoning и Chain of Thought (CoT) это одно и то же. Они связаны, но это разные концепции.

Reasoning — это общее понятие рассуждения и умозаключений. Оно включает любые формы размышлений и выводов. Chain of Thought — это конкретная техника, используемая для улучшения reasoning путем добавления промежуточных шагов, чтобы помочь модели ясно выразить свои мысли и более точно прийти к решению задачи.

Читать далее

Погружение в LLM часть вторая

В первой части мы разобрали практическую часть погружения в LLM.

В этой части мы поговорим про ключевые пейперы, которые помогут в понимании LLM и прохождение собеседований =) Но об этом позже.

Все начинается с первой гпт

Затем рекомендую прочитать работу про InstructGPT. Там раскрыта тема обучения с фидбеком от человека.

Дальше есть пара интересных пейперов:

Затем рекомендую ознакомиться с двумя воистину знаковых пейпера: LORA и QLORA, которые решают следующие проблемы:

  • скорость обучения
  • вычислительные ресурсы
  • эффективность памяти

Еще два не менее важных пейпера PPO и DPO. Понимание этих работ поможет в ревард моделинге.

Ну и на последок:

Всем приятного чтения

Разговоры о Data Science – закрытый канал для общения на тему карьеры, развития профессиональных навыков и применения навыков на работе.

Погружение в LLM часть первая

Я тут начал погружаться в LLM чуть глубже и лично для меня гораздо проще начинать погружение через практику.

Таким образом можно понять все ключевые концепции и наметить себе список пейперов для дальнейшего ознакомления.

Начал я с заметки StackLLaMA: A hands-on guide to train LLaMA with RLHF

Тут вы сразу сможете ознакомиться с концепциями Reinforcement Learning from Human Feedback, эффективной тренировкой с помощью LoRA, PPO.

Так же вы познакомитесь с зоопарком библиотек huggingface: accelerate, bitsandbytes, peft и trl.

В заметке используется StackExchange датасет, но для разнообразия могу посоветовать вам использовать датасет Anthropic/hh-rlhf

Во второй части пройдемся по ключевым пейперам

Разговоры о Data Science – закрытый канал для общения на тему карьеры, развития профессиональных навыков и применения навыков на работе.