Погружение в LLM часть первая

Я тут начал погружаться в LLM чуть глубже и лично для меня гораздо проще начинать погружение через практику.

Таким образом можно понять все ключевые концепции и наметить себе список пейперов для дальнейшего ознакомления.

Начал я с заметки StackLLaMA: A hands-on guide to train LLaMA with RLHF

Тут вы сразу сможете ознакомиться с концепциями Reinforcement Learning from Human Feedback, эффективной тренировкой с помощью LoRA, PPO.

Так же вы познакомитесь с зоопарком библиотек huggingface: accelerate, bitsandbytes, peft и trl.

В заметке используется StackExchange датасет, но для разнообразия могу посоветовать вам использовать датасет Anthropic/hh-rlhf

Во второй части пройдемся по ключевым пейперам

Machine learning pipeline — основы. Cookiecutter и Hydra

В курсах по Data Science домашние работы и проекты делаются в Jupyter Notebooks и студентов не учат писать пайплайны. Дело в том, что работа в Jupyter Notebooks не смотря на удобство несет в себе в том числе и недостатки. Например, вы строите несколько типов моделей с несколькими вариантами заполнения пропусков (среднее, медиана), генерируете набор feature engineering и применяете разные варианты разбиения выборки.

Можно разместить весь этот код в один Jupyter Notebooks и логгировать метрики и конфиги. Код получится громоздкий и не поворотливый. Для запуска экспериментов надо будет или перескакивать или комментировать ячейки, которые не нужно запускать.

Для решения этих проблем рекомендую использовать pipeline для автоматизации рабочих процессов машинного обучения. Основная цель создания пайплайна — это контроль. Хорошо организованный пайплайн делает реализацию более гибкой.

Читать далее

Стань экспертом в Machine Learning и MLOps

Я с недавних пор стал партнером и преподавателем в Risoma School. И уже в сентябре стартуют два курса, где вы сможете прокачать навыки для проектов машинного обучения:

  1. MLOps для Data Science и разработки ML моделей — курс для Data Scientists & Analytics, для эффективной работы с экспериментами, моделями и подготовки production решений c FastAPI и Airflow.
  2. MLOps для Batch Scoring: автоматизация пайплайнов и CI/CD c DVC, MLflow и Airflow — курс для Machine Learning, Data и DevOps инженеров.

На курсах вы научитесь:
▪️ Управлять экспериментами и жизненным циклом моделей
▪️ Работать с продвинутыми сценариями версионирования данных и моделей
▪️ Эффективно использовать Git и следовать Git-flow в проектах
▪️ Автоматизировать процессы доставки моделей в production, сборку и тестирования решений
▪️ Настраивать мониторинг работы моделей и данных в production
▪️ Эффективно работать с Airflow, DVD, Evidently, MLflow, FastAPI, Grafana, Git, Docker, GitLab, GitLab CI

В программе курсов лекции от экспертов ML в банкинге, MedTech, AdTech, Big Data.

Выбрать курс со скидкой: тут

Делюсь с вами промокодом, с которым вы получите скидку 10% на любой курс: «FRIEND10» !

Как стать Machine Learning Engineer

Для начала давайте определимся в чем разница между Machine Learning Engineer и Data Scientist. Если Data Scientist может больше работать над моделированием и сосредотачиваются на тонкостях алгоритмов, то Machine Learning Engineer более часто работает над развертыванием той же модели в производственной среде, которая будет взаимодействовать с пользователями или на автоматизации процесса обучения, мониторинга, сбора признаков. Очень часто в компаниях эти две обязанности выполняет один специалист.

В этой статье мы рассмотрим какие навыки нужны Machine Learning Engineer.

Востребованность

Machine Learning Engineer в 2022 году входит в топ 10 высокооплачиваемых профессий. Зарплаты в США от $115 тысяч до $171 тысячи в среднем в год. Самими же востребованными специалистами стали Machine Learning инженере в области Natural Language Processing. Их зарплата в среднем составляет 160 227 долларов США. Источник

В исследованиях дата-профессий по рынку Казахстана и России к сожалению не разделяют специалистов Machine Learning Engineer и Data Scientist по уровням зарплат. Поэтому будем ориентироваться на Data Scientist.

В Казахстане средняя зарплата составляет 682 тысячи тенге в месяц. Более подробно можно почитать в исследовании.

В России спрос на Data Scientist вырос на 93%, что же касается зарплат то рост составил 11%. Вилки зарплат для Data Scientist: для джунов 20 — 200, для мидлов 60 — 300, для синьоров и лидов от 100 — 700 тысяч рублей. Подробнее тут.

Читать далее

Как подготовиться к Data Science интервью

Data Science интервью — непростая задача. Существует значительная неопределённость в отношении вопросов. Независимо от того, какой у вас опыт работы или какой у вас диплом об образовании, интервьюер может задать вам ряд вопросов, которые вы не ожидаете. Во время Data Science интервью интервьюер будет задавать технические вопросы по широкому кругу тем, требуя от интервьюируемого как сильных знаний, так и хороших коммуникативных навыков.

В этой заметке я хотел бы поговорить о том, как подготовиться к собеседованию по машинному обучению. Разберем категории вопросов, поделюсь ссылками с вопросами и ответами на часто задаваемые вопросы.

Категории вопросов

Традиционно Data Science интервью включает следующие категории вопросов:

  • Статистика
  • Алгоритмы машинного обучения
  • Навыки программирования, алгоритмы и структуры данных
  • Знание предметной области
  • Проектирование систем машинного обучения
  • Поведенческое интервью
  • Соответствие культуре
  • Решение проблем

Читать далее