Как ускорить LLM и снизить затраты. Edge модели

RouteLLM снижает ваши расходы на использование LLM в 3,6 раз.

Он выбирает, использовать ли сильную или слабую модель LLM, в зависимости от сложности пользовательского запроса. Это оптимизирует баланс между стоимостью и качеством ответа.

Библиотека на Python позволяет использовать этот подход напрямую.

import os
from routellm.controller import Controller

os.environ["OPENAI_API_KEY"] = "sk-XXXXXX"
# Replace with your model provider, we use Anyscale's Mixtral here.
os.environ["ANYSCALE_API_KEY"] = "esecret_XXXXXX"

client = Controller(
  routers=["mf"],
  strong_model="gpt-4-1106-preview",
  weak_model="anyscale/mistralai/Mixtral-8x7B-Instruct-v0.1",
)

Читать далее