Google Deepmind разработали многократный онлайн-подход с использованием обучения с подкреплением (reinforcement learning), чтобы улучшить способность больших языковых моделей (LLM) к самокоррекции.
Показано, что обучение с учителем (SFT) неэффективно для изучения самокоррекции и сталкивается с несоответствием между данными для обучения и ответами модели. Для решения этой проблемы предлагается двухэтапный подход, который сначала оптимизирует поведение самокоррекции, а затем использует дополнительное вознаграждение для усиления самокоррекции в процессе обучения. Этот метод полностью основан на данных, сгенерированных самой моделью.
При применении к моделям Gemini 1.0 Pro и 1.5 Flash достигается рекордная производительность по самокоррекции, улучшая базовые модели на 15.6% и 9.1% соответственно в тестах MATH и HumanEval.
Комплексная оценка квантованных LLM, настроенных на выполнение инструкций
В данной работе оценивается производительность LLM, обученных на выполнении инструкций, при различных методах квантования для моделей размером от 7B до 405B параметров.
Ключевые выводы (из статьи):
- Квантование большей модели LLM до аналогичного размера, как у меньшей FP16 LLM, обычно даёт лучшие результаты на большинстве тестов.
- Производительность значительно варьируется в зависимости от методов квантования, размера модели и глубины битности, причём методы, использующие квантование только весов, часто обеспечивают лучшие результаты для более крупных моделей.
- Сложность задачи не оказывает значительного влияния на снижение точности, вызванное квантованием.
Есть ли память у больших языковых моделей (LLM)
Судя по текущим результатам, LLM действительно демонстрируют наличие памяти. Так в чём же заключается механизм этой памяти?
В статье рассматриваются возможности памяти больших языковых моделей (LLM). Она использует Теорему универсальной аппроксимации (Universal Approximation Theorem) для объяснения механизма памяти LLM. Также предлагается новый подход к оценке производительности LLM, сравнивая емкости памяти различных моделей.
Архитектура Transformer функционирует как динамическая модель аппроксимации UAT, обладающая высокой способностью адаптивно подстраиваться под входные данные. В результате LLM способны вспоминать целый контент на основе минимальной информации на входе. Поскольку эта память может быть подтверждена только при активации входными данными, мы называем её «памятью Шрёдингера».
Logic-of-Thought для полного рассуждения в LLM
Предлагается новая техника подсказок под названием Logic-of-Thought (LoT), которая использует пропозициональную логику для генерации и добавления расширенной логической информации из контекста ввода.
LoT улучшает производительность Chain-of-Thought (CoT) на наборе данных ReClor на +4,35%. Также повышает эффективность CoT+SelfConsistency на LogiQA на +5% и улучшает результаты ToT на наборе данных ProofWriter на +8%.
Вывод
- Самокоррекция в LLM через обучение с подкреплением: Google Deepmind предложили инновационный подход для повышения способности больших языковых моделей (LLM) к самокоррекции, улучшив базовые модели Gemini на 15,6% и 9,1% в тестах MATH и HumanEval соответственно. Это показывает значительный потенциал использования генерации данных самой моделью в обучении LLM.
- Квантование LLM для выполнения инструкций: Было установлено, что методы квантования существенно влияют на производительность LLM, причем квантование больших моделей до меньших размеров (с использованием различных методов) может повысить их эффективность. Ключевое наблюдение – квантование моделей с большими параметрами (405B) часто дает лучшие результаты.
- Память в LLM: Было доказано, что LLM обладают памятью, а архитектура Transformer выполняет функцию аппроксимации входных данных, демонстрируя «память Шрёдингера», которая активируется входными данными.
- Logic-of-Thought для улучшения рассуждений LLM: Новый подход Logic-of-Thought (LoT) показал значительное улучшение производительности LLM на задачах логического рассуждения, в частности, на наборах данных ReClor, LogiQA и ProofWriter, что подтверждает эффективность использования логических структур для повышения производительности моделей.
В совокупности, данные исследования подчеркивают важность адаптации существующих моделей LLM и внедрения новых подходов для их улучшения в задачах самокоррекции, квантования, памяти и логического рассуждения.