Заметки про Machine Learning, Data Science и Analytics Engineering

Чеклист для запуска Machine Learning  проекта

В этой заметке постараюсь раскрыть мысли по поводу необходимых шагов для старта проекта в области Machine Learning.

Необходимые данные

  1. Набор данных для обучения
    • Исторические данные — для обучения предсказательных моделей
    • Обучающая выборка — образцы того, что мы хотим найти/предсказать — для обучения модели
    • Достаточной глубины (с учетом сезонности и т. п. до нескольких лет)
    • Достаточного объема, репрезентативная выборка
  2. Набор данных для тестирования
    • Исторические данные — для тестирования предсказательных моделей
    • Тестовая выборка — для проверки качества модели
    • Достаточного объема, репрезентативная выборка
  3. Актуальные данные — материал для работы модели

Читать далее