Как ускорить LLM и снизить затраты. Edge модели

RouteLLM снижает ваши расходы на использование LLM в 3,6 раз.

Он выбирает, использовать ли сильную или слабую модель LLM, в зависимости от сложности пользовательского запроса. Это оптимизирует баланс между стоимостью и качеством ответа.

Библиотека на Python позволяет использовать этот подход напрямую.

import os
from routellm.controller import Controller

os.environ["OPENAI_API_KEY"] = "sk-XXXXXX"
# Replace with your model provider, we use Anyscale's Mixtral here.
os.environ["ANYSCALE_API_KEY"] = "esecret_XXXXXX"

client = Controller(
  routers=["mf"],
  strong_model="gpt-4-1106-preview",
  weak_model="anyscale/mistralai/Mixtral-8x7B-Instruct-v0.1",
)

Вот как работает модель:

  • Модель обучена на данных предпочтений, собранных в 80 тысячах «баттлов» на платформе Chatbot Arena.
  • Для борьбы с разреженностью данных модели сгруппированы по уровням: сильные модели из топовых уровней, а слабые — из третьего уровня.
  • Они тестируют разные подходы маршрутизации, включая матричную факторизацию, классификатор BERT, ранжирование на основе взвешенного сходства (SW) и даже каузальный классификатор Llama 3 с 8B параметрами.

Матричная факторизация позволяет снизить затраты до 3,66 раза при сохранении качества, сопоставимого с GPT-4.

Маршрутизаторы хорошо обобщаются на различные пары сильных и слабых моделей без необходимости переобучения.

Более подробно можно почитать в статье

Обзор малых языковых моделей (SLMs)

Отличный обзор малых языковых моделей (SLMs), включая обсуждение вопросов, связанных с определениями, применениями, улучшениями, надежностью и многим другим.

Малые языковые модели (SLMs)

Компактные LLM модели для edge-устройств

Meta выпустила квантованные модели Llama 3.2 с 1B и 3B параметрами — идеальный выбор для работы на устройствах и edge-развертываний, с акцентом на конфиденциальность и скорость при сохранении почти полной точности!

Кратко:

  • Основаны на Llama 3.2 с 1B и 3B параметрами.
  • В 2–3 раза быстрее оригинальных моделей при выводе.
  • Снижение размера моделей и использования памяти на 45–60%.
  • Сохраняют почти полную точность.
  • Используют 4-битную группированную квантизацию и 8-битную динамическую активацию для оптимальной производительности.
  • Квантизационная схема разработана с учетом ExecuTorch от PyTorch и Arm CPU.
  • Лучшие задачи: извлечение знаний, суммаризация и следование инструкциям.
  • Доступно на Hugging Face.
Компактные LLM модели для edge-устройств

Ministral 3B и Ministral 8B

Компания Mistral AI анонсировала les Ministraux: две передовые модели для локальных и edge-вычислений. Ministral 3B и 8B поддерживают контекст до 128k токенов, отличаются высокой производительностью и низкой задержкой. Эти модели идеально подходят для задач, где требуется конфиденциальность и высокая скорость: от локальной аналитики до автономной робототехники.

Ministral 8B использует инновационное окно внимания, оптимизируя работу с памятью, а обе модели могут быть настроены для обработки данных и API-вызовов в агентных рабочих процессах. Эти решения предлагают эффективную альтернативу для локальных задач без подключения к интернету. Mistral снова поднимает планку в области компактных языковых моделей.

Ministral 3B и Ministral 8B

Вывод

  • RouteLLM снижает расходы на LLM в 3,6 раза, оптимизируя выбор между сильной и слабой моделью для разных запросов.
  • Meta Llama 3.2 (1B и 3B параметров) — компактные модели для edge-устройств с 45-60% снижением памяти при сохранении точности.
  • Ministral 3B и 8B — высокопроизводительные модели для локальных вычислений, поддерживающие контекст до 128k токенов, идеально подходят для конфиденциальных задач.
Share it

Если вам понравилась заметка - подписывайтесь на мой канал в телеграме https://t.me/renat_alimbekov


Интересные записи в этой рубрике: