RouteLLM снижает ваши расходы на использование LLM в 3,6 раз.
Он выбирает, использовать ли сильную или слабую модель LLM, в зависимости от сложности пользовательского запроса. Это оптимизирует баланс между стоимостью и качеством ответа.
Библиотека на Python позволяет использовать этот подход напрямую.
import os
from routellm.controller import Controller
os.environ["OPENAI_API_KEY"] = "sk-XXXXXX"
# Replace with your model provider, we use Anyscale's Mixtral here.
os.environ["ANYSCALE_API_KEY"] = "esecret_XXXXXX"
client = Controller(
routers=["mf"],
strong_model="gpt-4-1106-preview",
weak_model="anyscale/mistralai/Mixtral-8x7B-Instruct-v0.1",
)
Вот как работает модель:
- Модель обучена на данных предпочтений, собранных в 80 тысячах «баттлов» на платформе Chatbot Arena.
- Для борьбы с разреженностью данных модели сгруппированы по уровням: сильные модели из топовых уровней, а слабые — из третьего уровня.
- Они тестируют разные подходы маршрутизации, включая матричную факторизацию, классификатор BERT, ранжирование на основе взвешенного сходства (SW) и даже каузальный классификатор Llama 3 с 8B параметрами.
Матричная факторизация позволяет снизить затраты до 3,66 раза при сохранении качества, сопоставимого с GPT-4.
Маршрутизаторы хорошо обобщаются на различные пары сильных и слабых моделей без необходимости переобучения.
Более подробно можно почитать в статье
Обзор малых языковых моделей (SLMs)
Отличный обзор малых языковых моделей (SLMs), включая обсуждение вопросов, связанных с определениями, применениями, улучшениями, надежностью и многим другим.
Компактные LLM модели для edge-устройств
Meta выпустила квантованные модели Llama 3.2 с 1B и 3B параметрами — идеальный выбор для работы на устройствах и edge-развертываний, с акцентом на конфиденциальность и скорость при сохранении почти полной точности!
Кратко:
- Основаны на Llama 3.2 с 1B и 3B параметрами.
- В 2–3 раза быстрее оригинальных моделей при выводе.
- Снижение размера моделей и использования памяти на 45–60%.
- Сохраняют почти полную точность.
- Используют 4-битную группированную квантизацию и 8-битную динамическую активацию для оптимальной производительности.
- Квантизационная схема разработана с учетом ExecuTorch от PyTorch и Arm CPU.
- Лучшие задачи: извлечение знаний, суммаризация и следование инструкциям.
- Доступно на Hugging Face.
Ministral 3B и Ministral 8B
Компания Mistral AI анонсировала les Ministraux: две передовые модели для локальных и edge-вычислений. Ministral 3B и 8B поддерживают контекст до 128k токенов, отличаются высокой производительностью и низкой задержкой. Эти модели идеально подходят для задач, где требуется конфиденциальность и высокая скорость: от локальной аналитики до автономной робототехники.
Ministral 8B использует инновационное окно внимания, оптимизируя работу с памятью, а обе модели могут быть настроены для обработки данных и API-вызовов в агентных рабочих процессах. Эти решения предлагают эффективную альтернативу для локальных задач без подключения к интернету. Mistral снова поднимает планку в области компактных языковых моделей.
Вывод
- RouteLLM снижает расходы на LLM в 3,6 раза, оптимизируя выбор между сильной и слабой моделью для разных запросов.
- Meta Llama 3.2 (1B и 3B параметров) — компактные модели для edge-устройств с 45-60% снижением памяти при сохранении точности.
- Ministral 3B и 8B — высокопроизводительные модели для локальных вычислений, поддерживающие контекст до 128k токенов, идеально подходят для конфиденциальных задач.