Machine learning pipeline — основы. Cookiecutter и Hydra

В курсах по Data Science домашние работы и проекты делаются в Jupyter Notebooks и студентов не учат писать пайплайны. Дело в том, что работа в Jupyter Notebooks не смотря на удобство несет в себе в том числе и недостатки. Например, вы строите несколько типов моделей с несколькими вариантами заполнения пропусков (среднее, медиана), генерируете набор feature engineering и применяете разные варианты разбиения выборки.

Можно разместить весь этот код в один Jupyter Notebooks и логгировать метрики и конфиги. Код получится громоздкий и не поворотливый. Для запуска экспериментов надо будет или перескакивать или комментировать ячейки, которые не нужно запускать.

Для решения этих проблем рекомендую использовать pipeline для автоматизации рабочих процессов машинного обучения. Основная цель создания пайплайна — это контроль. Хорошо организованный пайплайн делает реализацию более гибкой.

Читать далее

Налоговый календарь для ИП в Казахстане

Сделал небольшой сервис для всех индивидуальных предпринимателей в Казахстане, особенно для тех, кто находится на упрощенной системе налогообложения.

Если вы когда-либо забывали о предстоящих налоговых обязательствах или тратили много времени на поиск актуальной информации о налогах, этот сервис создан специально для вас. Сервис позволяет в один клик добавить в свой календарь полную информацию о предстоящих налогах и платежах для индивидуальных предпринимателей в Казахстане находящихся на упрощенке.

Налоговый календарь для ИП в Казахстане
Налоговый календарь для ИП в Казахстане

Разговоры о Data Science – закрытый канал для общения на тему карьеры, развития профессиональных навыков и применения навыков на работе.

Стань экспертом в Machine Learning и MLOps

Набор на курс пока закрыт

Я с недавних пор стал партнером и преподавателем в Risoma School. И уже в сентябре стартуют два курса, где вы сможете прокачать навыки для проектов машинного обучения:

  1. MLOps для Data Science и разработки ML моделей — курс для Data Scientists & Analytics, для эффективной работы с экспериментами, моделями и подготовки production решений c FastAPI и Airflow.
  2. MLOps для Batch Scoring: автоматизация пайплайнов и CI/CD c DVC, MLflow и Airflow — курс для Machine Learning, Data и DevOps инженеров.

На курсах вы научитесь:
▪️ Управлять экспериментами и жизненным циклом моделей
▪️ Работать с продвинутыми сценариями версионирования данных и моделей
▪️ Эффективно использовать Git и следовать Git-flow в проектах
▪️ Автоматизировать процессы доставки моделей в production, сборку и тестирования решений
▪️ Настраивать мониторинг работы моделей и данных в production
▪️ Эффективно работать с Airflow, DVD, Evidently, MLflow, FastAPI, Grafana, Git, Docker, GitLab, GitLab CI

В программе курсов лекции от экспертов ML в банкинге, MedTech, AdTech, Big Data.

Выбрать курс со скидкой: тут

Делюсь с вами промокодом, с которым вы получите скидку 10% на любой курс: «FRIEND10» !

Разговоры о Data Science – закрытый канал для общения на тему карьеры, развития профессиональных навыков и применения навыков на работе.

Компетенции для разных уровней Data Scientists

Data Science — это широкий диапазон компетенций, которые включают в себя различные уровни знаний и опыта. Компетенции, необходимые для начинающего Data Scientist, будут отличаться от тех, что требуются для опытного специалиста. Заметка основана на моих наблюдениях и опыте работы руководителем подразделения машинного обучения и Data Scienсе, возглавлял команду из 35+ человек и 7 стримов: Fintech, Devices, MobileAd и GEO, Компьютерное зрение, NLP, Внутренние проекты, CVM.

В заметке мы рассмотрим общие компетенции, без углубления в специфику NLP и Computer Vision специализации.

Читать далее