Трендовые статьи по Large Language Model

Google Deepmind разработали многократный онлайн-подход с использованием обучения с подкреплением (reinforcement learning), чтобы улучшить способность больших языковых моделей (LLM) к самокоррекции.

Cамокоррекция LLM

Показано, что обучение с учителем (SFT) неэффективно для изучения самокоррекции и сталкивается с несоответствием между данными для обучения и ответами модели. Для решения этой проблемы предлагается двухэтапный подход, который сначала оптимизирует поведение самокоррекции, а затем использует дополнительное вознаграждение для усиления самокоррекции в процессе обучения. Этот метод полностью основан на данных, сгенерированных самой моделью.

При применении к моделям Gemini 1.0 Pro и 1.5 Flash достигается рекордная производительность по самокоррекции, улучшая базовые модели на 15.6% и 9.1% соответственно в тестах MATH и HumanEval.

Комплексная оценка квантованных LLM, настроенных на выполнение инструкций

Комплексная оценка квантованных LLM, настроенных на выполнение инструкций

В данной работе оценивается производительность LLM, обученных на выполнении инструкций, при различных методах квантования для моделей размером от 7B до 405B параметров.

Ключевые выводы (из статьи):

  • Квантование большей модели LLM до аналогичного размера, как у меньшей FP16 LLM, обычно даёт лучшие результаты на большинстве тестов.
  • Производительность значительно варьируется в зависимости от методов квантования, размера модели и глубины битности, причём методы, использующие квантование только весов, часто обеспечивают лучшие результаты для более крупных моделей.
  • Сложность задачи не оказывает значительного влияния на снижение точности, вызванное квантованием.

Есть ли память у больших языковых моделей (LLM)

Есть ли память у больших языковых моделей (LLM)

Судя по текущим результатам, LLM действительно демонстрируют наличие памяти. Так в чём же заключается механизм этой памяти?

В статье рассматриваются возможности памяти больших языковых моделей (LLM). Она использует Теорему универсальной аппроксимации (Universal Approximation Theorem) для объяснения механизма памяти LLM. Также предлагается новый подход к оценке производительности LLM, сравнивая емкости памяти различных моделей.

Архитектура Transformer функционирует как динамическая модель аппроксимации UAT, обладающая высокой способностью адаптивно подстраиваться под входные данные. В результате LLM способны вспоминать целый контент на основе минимальной информации на входе. Поскольку эта память может быть подтверждена только при активации входными данными, мы называем её «памятью Шрёдингера».

Logic-of-Thought для полного рассуждения в LLM

Logic-of-Thought (LoT)

Предлагается новая техника подсказок под названием Logic-of-Thought (LoT), которая использует пропозициональную логику для генерации и добавления расширенной логической информации из контекста ввода.

LoT улучшает производительность Chain-of-Thought (CoT) на наборе данных ReClor на +4,35%. Также повышает эффективность CoT+SelfConsistency на LogiQA на +5% и улучшает результаты ToT на наборе данных ProofWriter на +8%.

Вывод

  1. Самокоррекция в LLM через обучение с подкреплением: Google Deepmind предложили инновационный подход для повышения способности больших языковых моделей (LLM) к самокоррекции, улучшив базовые модели Gemini на 15,6% и 9,1% в тестах MATH и HumanEval соответственно. Это показывает значительный потенциал использования генерации данных самой моделью в обучении LLM.
  2. Квантование LLM для выполнения инструкций: Было установлено, что методы квантования существенно влияют на производительность LLM, причем квантование больших моделей до меньших размеров (с использованием различных методов) может повысить их эффективность. Ключевое наблюдение – квантование моделей с большими параметрами (405B) часто дает лучшие результаты.
  3. Память в LLM: Было доказано, что LLM обладают памятью, а архитектура Transformer выполняет функцию аппроксимации входных данных, демонстрируя «память Шрёдингера», которая активируется входными данными.
  4. Logic-of-Thought для улучшения рассуждений LLM: Новый подход Logic-of-Thought (LoT) показал значительное улучшение производительности LLM на задачах логического рассуждения, в частности, на наборах данных ReClor, LogiQA и ProofWriter, что подтверждает эффективность использования логических структур для повышения производительности моделей.

В совокупности, данные исследования подчеркивают важность адаптации существующих моделей LLM и внедрения новых подходов для их улучшения в задачах самокоррекции, квантования, памяти и логического рассуждения.

Share it

Если вам понравилась заметка - подписывайтесь на мой канал в телеграме https://t.me/renat_alimbekov или вы можете поддержать меня Become a Patron!


Интересные записи в этой рубрике: