Как ускорить LLM и снизить затраты. Edge модели

RouteLLM снижает ваши расходы на использование LLM в 3,6 раз.

Он выбирает, использовать ли сильную или слабую модель LLM, в зависимости от сложности пользовательского запроса. Это оптимизирует баланс между стоимостью и качеством ответа.

Библиотека на Python позволяет использовать этот подход напрямую.

import os
from routellm.controller import Controller

os.environ["OPENAI_API_KEY"] = "sk-XXXXXX"
# Replace with your model provider, we use Anyscale's Mixtral here.
os.environ["ANYSCALE_API_KEY"] = "esecret_XXXXXX"

client = Controller(
  routers=["mf"],
  strong_model="gpt-4-1106-preview",
  weak_model="anyscale/mistralai/Mixtral-8x7B-Instruct-v0.1",
)

Читать далее

Трендовые статьи по Large Language Model

Google Deepmind разработали многократный онлайн-подход с использованием обучения с подкреплением (reinforcement learning), чтобы улучшить способность больших языковых моделей (LLM) к самокоррекции.

Cамокоррекция LLM

Показано, что обучение с учителем (SFT) неэффективно для изучения самокоррекции и сталкивается с несоответствием между данными для обучения и ответами модели. Для решения этой проблемы предлагается двухэтапный подход, который сначала оптимизирует поведение самокоррекции, а затем использует дополнительное вознаграждение для усиления самокоррекции в процессе обучения. Этот метод полностью основан на данных, сгенерированных самой моделью.

При применении к моделям Gemini 1.0 Pro и 1.5 Flash достигается рекордная производительность по самокоррекции, улучшая базовые модели на 15.6% и 9.1% соответственно в тестах MATH и HumanEval.

Читать далее

Все новое из мира Large Language Model

За последний месяц произошло очень интересных и знаковых событий в мире Large Language Model (LLM).

Так мировые гиганты выпустили свежие версии своих моделей. Начнем с того, что Google выпустил 2 новые модели Gemini: Gemini-1.5-Pro-002 и Gemini-1.5-Flash-002.

Основные особенности:

  • Снижение цены более чем на 50% для версии 1.5 Pro
  • В 2 раза более быстрая выдача результатов и в 3 раза ниже задержка

Главный акцент был сделан на улучшении производительности, скорости и снижении стоимости моделей для создания систем промышленного уровня.

Детали тут

Читать далее

Основные тенденции в развитии рассуждений LLM

В это заметки хотелось бы раскрыть последние тенденции и исследования в области ризонинга и новых техник промптинга улучшающих аутпут.

По простому ризонинг это процесс многошаговых рассуждений, где выполняется несколько последовательных шагов размышлений и где каждый шаг зависит от предыдущего.

Может показаться, что Reasoning и Chain of Thought (CoT) это одно и то же. Они связаны, но это разные концепции.

Reasoning — это общее понятие рассуждения и умозаключений. Оно включает любые формы размышлений и выводов. Chain of Thought — это конкретная техника, используемая для улучшения reasoning путем добавления промежуточных шагов, чтобы помочь модели ясно выразить свои мысли и более точно прийти к решению задачи.

Читать далее

Погружение в LLM часть вторая

В первой части мы разобрали практическую часть погружения в LLM.

В этой части мы поговорим про ключевые пейперы, которые помогут в понимании LLM и прохождение собеседований =) Но об этом позже.

Все начинается с первой гпт

Затем рекомендую прочитать работу про InstructGPT. Там раскрыта тема обучения с фидбеком от человека.

Дальше есть пара интересных пейперов:

Затем рекомендую ознакомиться с двумя воистину знаковых пейпера: LORA и QLORA, которые решают следующие проблемы:

  • скорость обучения
  • вычислительные ресурсы
  • эффективность памяти

Еще два не менее важных пейпера PPO и DPO. Понимание этих работ поможет в ревард моделинге.

Ну и на последок:

Всем приятного чтения

Разговоры о Data Science – закрытый канал для общения на тему карьеры, развития профессиональных навыков и применения навыков на работе.