Заметки про Machine Learning, Data Science и Analytics Engineering

Как освоить Data Science — личный опыт

Обзор на онлайн-курсы для входа в профессию дата саентиста. Все курсы пройдены и описан субъективный взгляд и опыт.

Классический ML

Открытый курс OpenDataScience
Открытый курс OpenDataScience

Открытый курс OpenDataScience https://mlcourse.ai/

Классный курс, сочетающий глубокую теорию и практические задания. Состоит из видео лекций на Youtube, статей на habr и заданий на github. Курс полностью о классическом машином обучении, поэтому нейронок тут не ждите. Очень рекомендую.

Специализация Машинное обучение и анализ данных МФТИ и Yandex https://www.coursera.org/specializations/machine-learning-data-analysis

Крутая специализация, крутые преподы. Курс плавно погружает в классическое машинное обучение. Специализация состоит из 6 курсов и позволяет как освоить теорию так и отработать навыки с Python. Больше всего понравились два курса из специализации: Математика и Python для анализа данных и Построение выводов по данным. Они круты тем, что темы изложенные в них в других курсах или встречаются редко или вообще их нет. Крайне рекомендую.

Data Mining in Action http://dmia.space/

Курс от авторов специализации МФТИ и Яндекса. Я его толком не проходил, но смотрел видео на Youtube. Рекомендую посмотреть, особенно по временным рядам.

Курс «Машинное обучение» Воронцова https://www.youtube.com/playlist?list=PLJOzdkh8T5krxc4HsHbB8g8f0hu7973fK

Видео по классическому машинному обучению. Будет СЛОЖНО и БОЛЬНО. Лучше посмотреть другие курсы с таким же содержанием и с большей концетрацией на практику. Не рекомендую.

Специализация Advanced Machine Learning от ВШЭ https://www.coursera.org/specializations/aml

Специализация состоит из 7 курсов. Я прошёл только 2 и они оставили два разных впечатления. Курс — How to Win a Data Science Competition: Learn from Top Kagglers, мне очень понравился. Пусть название вас не смущает, курс хоть и построен на соревнования с Kaggle даёт очень практические вещи. Например — работа с признаками, кодирование средними, EDA и поиск ликов в данных. Здорово расширяет набор навыков и взгляды на работу с данными. Крайне рекомендую. Курс — Natural Language Processing, у меня к нему сложилось нейтральное впечатление. Курс даёт NLP очень обширно и глубоко, но при выполнении заданий и тестов приходится много гуглить и читать. Курс показался сложным, а целью было именно вкатиться в NLP, но не забываем, что специализация называется Advanced Machine Learning. Рекомендую, при условии если уже есть базовые знания в NLP.

DataCamp https://www.datacamp.com/

Единственная платная в обзоре платформа. Частые скдики позволяют купить за 99$ годовой доступ ко всем курсам. На платформе есть курсы по Python, R, SQL. На площадке есть career tracks, например Data Scientist with Python. Он состоит из 26 курсов — Python, визуализация, ml stack библиотеки Python, классический ML, немного Deep Learning. Главный плюс курсов на DataCamp, что можно быстро оттачить быстро навык написания просто и базового кода на Python.

Отдельно рекомендую курсы Александра Дьяконова:

Deep Learning

Back-propagation
Back-propagation

Deep Learning на пальцах https://dlcourse.ai/

Курс о deep learning с нуля, но на мой взгляд название не характеризует сам курс. Придется много гуглить для выполнения заданий, если вы совсем не знакомы c Python и Pytroch. В лекциях на Youtube очень хорошо рассказывается теория, но не уделено внимание практике. Рекомендую, если есть знания Python.

Переходим на площадку coursera.

Курс EE-559 — Deep Learning от École Polytechnique Fédérale de Lausanne, Switzerland. https://fleuret.org/ee559/

Курс с которого началось вдумчивое знакомство с Deep Learning и Pytorch. Он покрывает все сферы работы с нейронками: компьютерное зрение, NLP, GAN. Курс состоит из видео материалов, презентаций, конспектов и заданий на Pytorch. Материал очень гладко вводит в теорию машинного обучения, нейронок. На мой взгляд эта часть самая интересная и продуманная часть. Там много внимания уделено математике и выводу формул. Крайне рекомендую.

Deep Learning School кружок от ФПМИ МФТИ, рассчитанный на старшеклассников, интересующихся программированием и математикой, а также студентов, которые хотят начать заниматься глубоким обучением https://github.com/DLSchool/deep_learning_2018-19

Тут вас ждёт, просто масса материалов, жупитер тетрадок, записей семинаров и куча задачек для самостоятельного решения. Этот курс максимально подробен: математика, сверточные нейросети,U-Net,Object Detection, GAN. Дополнительно даны материалы по NLP, LSTM, Text2Speech, Speech2Text. Код примеров запускается к колабе. Максимально доступный материал для начинающих. Крайне рекомендую.

AI for Medical Diagnosis от команды Andrew Ng https://www.coursera.org/learn/ai-for-medical-diagnosis

Чего не стоит ждать от курса: объяснения основ нейроннок, рассказа о том как лучше учить сети, к слову тут их учить не придётся. В одном задании будет код для обучения юнета, но запускать его не обязательно для выполнения задания. Код писать тоже особо не дадут, все упражнения представляют собой написание кода (Keras) в уже готовый жупитер ноутбук в отмеченное место. Многие вещи, как например GradCam вообще не объясняют, а дают просто запустить и посмотреть результат. Из плюсов — хорошая секция про оценку моделей. Хорошая, потому что там дают код, который можно переиспользовать у себя. Самому лень было писать такое. Так же из плюсов отмечу, что если вы уже проходили курсы или умеете в нейронные сети, то AI for Medical Diagnosis станет неплохим дополнением. При условии, что тема медицины для вас интересна. Не рекомендую.

Отдельно рекомендую курс Александра Дьяконова:

Какие еще курсы пройти пока вкатываешься в DS/ML

Гистограммы частот и графики box-plot
Гистограммы частот и графики box-plot

Погружение в Python от МФТИ и Mail.Ru Group & ФРОО https://www.coursera.org/learn/diving-in-python/

Отличный курс по Python. Этот курс расширит арсенал и научит писать многопоточные и параллельные приложения. Отлично объяснит ООП, магические методы и дескрипторы. Задания тоже очень крутые, например: предстоит написать клиент и сервер для отправки метрик. Очень рекомендую.

Платформа stepik https://stepik.org/

На этой платформе я прошел несколько курсов и могу смело рекомендовать следующие:

  • Основы статистики часть 1, 2, 3 от Bioinformatics Institute https://stepik.org/course/76/syllabus Этот курс помог мне освежить в памяти статистику. Очень крутые леции и лекторв, доступным языком объяснены сложные вещи. Три курса охватывают области, которые вам будут необходимы в работе. Неудобство вызывает R в части 2 и 3, но задания не сложные, можно решить гуглением и без того, что бы вникать в R.
  • Курсы по алгоритмам: Алгоритмы: теория и практика. Структуры данных https://stepik.org/course/1547 и Алгоритмы: теория и практика. Методы https://stepik.org/course/217 Полезные курсы, даёт полное представление о базовых структурах данных и алгоритмах. Задачки можно выполнять на трёх языках — C++, Python, Java. Еще из плюсов это объяснение решений после выполнения задачек.
Share it

Если вам понравилась заметка - подписывайтесь на мой канал в телеграме https://t.me/renat_alimbekov или вы можете поддержать меня Patreon logo Патреон


Интересные записи в этой рубрике: