Персональный блог Рената Алимбекова -Data Science, ML и Analytics Engineering

Retrieval-Augmented Generation (RAG): Последние Исследования и Вызовы

В современном мире AI-технологий Retrieval-Augmented Generation (RAG) становится все более значимым подходом, сочетающим возможности информационного поиска с генеративными способностями больших языковых моделей (LLM). Это позволяет преодолеть ряд ограничений, с которыми сталкиваются традиционные LLM, и обеспечить более точные и основанные на фактах ответы.

Что такое RAG?

RAG — это не отдельная технология, а целый «зонтик» различных компонентов, дизайнерских решений и адаптаций для конкретных доменов. Типичная RAG-система включает:

Компонент приема данных: где данные обрабатываются, встраиваются и сохраняются как контекстные документы в векторной базе данных
Компонент извлечения: где контекстные документы извлекаются и ранжируются по релевантности запросу
Компонент запроса: где промпт с запросом комбинируется с результатами поиска и отправляется в LLM

Читать далее →

Как ускорить LLM и снизить затраты. Edge модели

RouteLLM снижает ваши расходы на использование LLM в 3,6 раз.

Он выбирает, использовать ли сильную или слабую модель LLM, в зависимости от сложности пользовательского запроса. Это оптимизирует баланс между стоимостью и качеством ответа.

Библиотека на Python позволяет использовать этот подход напрямую.

import os
from routellm.controller import Controller

os.environ["OPENAI_API_KEY"] = "sk-XXXXXX"
# Replace with your model provider, we use Anyscale's Mixtral here.
os.environ["ANYSCALE_API_KEY"] = "esecret_XXXXXX"

client = Controller(
  routers=["mf"],
  strong_model="gpt-4-1106-preview",
  weak_model="anyscale/mistralai/Mixtral-8x7B-Instruct-v0.1",
)

Читать далее →

Курс Управление AI и ML продуктами

AI и машинное обучение внедряются повсюду. Это мощная тенденция, трансформирующая цифровые продукты сегодня. Если вы хотите оставаться конкурентоспособными на рынке будущего, вам нужно научиться работать с AI.

Алгоритмы машинного обучения могут использоваться для выявления аномалий на медицинских изображениях, для распознавания лиц и в других областях. Машинное обучение также активно используется в рекомендательных системах, чат-ботах и беспилотных автомобилях.

По мере распространения и внедрения машинного обучения в компаниях, потребность в управлении продуктом компетентными в AI менеджерами будет неуклонно расти.

Уровень подготовки: Начинающий 🟢 ⚪ ⚪

Алимбеков Ренат

Руководитель в сфере анализа больших данных и машинном обучении. Проектирует и разрабатывает AI сервисы Участвовал в запуске ряда успешных продуктов сфере MedTech и биометрии 🚀
Опыт работы в Fintech, MedTech, AdTech и EduTech направлениях 👩‍💻

Читать далее →

Трендовые статьи по Large Language Model

Google Deepmind разработали многократный онлайн-подход с использованием обучения с подкреплением (reinforcement learning), чтобы улучшить способность больших языковых моделей (LLM) к самокоррекции.

Показано, что обучение с учителем (SFT) неэффективно для изучения самокоррекции и сталкивается с несоответствием между данными для обучения и ответами модели. Для решения этой проблемы предлагается двухэтапный подход, который сначала оптимизирует поведение самокоррекции, а затем использует дополнительное вознаграждение для усиления самокоррекции в процессе обучения. Этот метод полностью основан на данных, сгенерированных самой моделью.

При применении к моделям Gemini 1.0 Pro и 1.5 Flash достигается рекордная производительность по самокоррекции, улучшая базовые модели на 15.6% и 9.1% соответственно в тестах MATH и HumanEval.

Читать далее →

Все новое из мира Large Language Model

За последний месяц произошло очень интересных и знаковых событий в мире Large Language Model (LLM).

Так мировые гиганты выпустили свежие версии своих моделей. Начнем с того, что Google выпустил 2 новые модели Gemini: Gemini-1.5-Pro-002 и Gemini-1.5-Flash-002.

Основные особенности:

Снижение цены более чем на 50% для версии 1.5 Pro
В 2 раза более быстрая выдача результатов и в 3 раза ниже задержка

Главный акцент был сделан на улучшении производительности, скорости и снижении стоимости моделей для создания систем промышленного уровня.

Детали тут

Читать далее →