Обзор на онлайн-курсы для входа в профессию дата саентиста. Все курсы пройдены и описан субъективный взгляд и опыт.
Классический ML
Открытый курс OpenDataScience https://mlcourse.ai/
Классный курс, сочетающий глубокую теорию и практические задания. Состоит из видео лекций на Youtube, статей на habr и заданий на github. Курс полностью о классическом машином обучении, поэтому нейронок тут не ждите. Рекомендую.
Специализация Машинное обучение и анализ данных МФТИ и Yandex https://www.coursera.org/specializations/machine-learning-data-analysis (удален с coursera)
Крутая специализация, крутые преподы. Курс плавно погружает в классическое машинное обучение. Специализация состоит из 6 курсов и позволяет как освоить теорию так и отработать навыки с Python. Больше всего понравились два курса из специализации: Математика и Python для анализа данных и Построение выводов по данным. Они круты тем, что темы изложенные в них в других курсах или встречаются редко или вообще их нет. Рекомендую.
Data Mining in Action dmia
Курс от авторов специализации МФТИ и Яндекса. Я его толком не проходил, но смотрел видео на Youtube. Рекомендую посмотреть, особенно по временным рядам.
Курс «Машинное обучение» Воронцова https://www.youtube.com/playlist?list=PLJOzdkh8T5krxc4HsHbB8g8f0hu7973fK
Видео по классическому машинному обучению. Будет СЛОЖНО и БОЛЬНО. Лучше посмотреть другие курсы с таким же содержанием и с большей концентрацией на практику. Не рекомендую.
Специализация Advanced Machine Learning от ВШЭ https://www.coursera.org/specializations/aml
Специализация состоит из 7 курсов. Я прошёл только 2 и они оставили два разных впечатления. Курс — How to Win a Data Science Competition: Learn from Top Kagglers, мне очень понравился. Пусть название вас не смущает, курс хоть и построен на соревнования с Kaggle даёт очень практические вещи. Например — работа с признаками, кодирование средними, EDA и поиск ликов в данных. Здорово расширяет набор навыков и взгляды на работу с данными. Крайне рекомендую. Курс — Natural Language Processing, у меня к нему сложилось нейтральное впечатление. Курс даёт NLP очень обширно и глубоко, но при выполнении заданий и тестов приходится много гуглить и читать. Курс показался сложным, а целью было именно вкатиться в NLP, но не забываем, что специализация называется Advanced Machine Learning. Рекомендую, при условии если уже есть базовые знания в NLP.
DataCamp https://www.datacamp.com/
Единственная платная в обзоре платформа. Частые скдики позволяют купить за 99$ годовой доступ ко всем курсам. На платформе есть курсы по Python, R, SQL. На площадке есть career tracks, например Data Scientist with Python. Он состоит из 26 курсов — Python, визуализация, ml stack библиотеки Python, классический ML, немного Deep Learning. Главный плюс курсов на DataCamp, что можно быстро оттачить быстро навык написания просто и базового кода на Python.
Отдельно рекомендую курсы Александра Дьяконова:
Deep Learning
Deep Learning на пальцах https://dlcourse.ai/
Курс о deep learning с нуля, но на мой взгляд название не характеризует сам курс. Придется много гуглить для выполнения заданий, если вы совсем не знакомы c Python и Pytroch. В лекциях на Youtube очень хорошо рассказывается теория, но не уделено внимание практике. Рекомендую, если есть знания Python.
Переходим на площадку coursera.
Курс EE-559 — Deep Learning от École Polytechnique Fédérale de Lausanne, Switzerland. https://fleuret.org/ee559/
Курс с которого началось вдумчивое знакомство с Deep Learning и Pytorch. Он покрывает все сферы работы с нейронками: компьютерное зрение, NLP, GAN. Курс состоит из видео материалов, презентаций, конспектов и заданий на Pytorch. Материал очень гладко вводит в теорию машинного обучения, нейронок. На мой взгляд эта часть самая интересная и продуманная часть. Там много внимания уделено математике и выводу формул. Рекомендую.
Deep Learning School кружок от ФПМИ МФТИ, рассчитанный на старшеклассников, интересующихся программированием и математикой, а также студентов, которые хотят начать заниматься глубоким обучением https://github.com/DLSchool/deep_learning_2018-19
Тут вас ждёт, просто масса материалов, жупитер тетрадок, записей семинаров и куча задачек для самостоятельного решения. Этот курс максимально подробен: математика, сверточные нейросети,U-Net,Object Detection, GAN. Дополнительно даны материалы по NLP, LSTM, Text2Speech, Speech2Text. Код примеров запускается к колабе. Максимально доступный материал для начинающих. Рекомендую.
AI for Medical Diagnosis от команды Andrew Ng https://www.coursera.org/learn/ai-for-medical-diagnosis
Чего не стоит ждать от курса: объяснения основ нейроннок, рассказа о том как лучше учить сети, к слову тут их учить не придётся. В одном задании будет код для обучения юнета, но запускать его не обязательно для выполнения задания. Код писать тоже особо не дадут, все упражнения представляют собой написание кода (Keras) в уже готовый жупитер ноутбук в отмеченное место. Многие вещи, как например GradCam вообще не объясняют, а дают просто запустить и посмотреть результат. Из плюсов — хорошая секция про оценку моделей. Хорошая, потому что там дают код, который можно переиспользовать у себя. Самому лень было писать такое. Так же из плюсов отмечу, что если вы уже проходили курсы или умеете в нейронные сети, то AI for Medical Diagnosis станет неплохим дополнением. При условии, что тема медицины для вас интересна. Не рекомендую.
Отдельно рекомендую курс Александра Дьяконова:
Какие еще курсы пройти пока вкатываешься в DS/ML
Погружение в Python от МФТИ и Mail.Ru Group & ФРОО https://www.coursera.org/learn/diving-in-python/ (удален с coursera)
Отличный курс по Python. Этот курс расширит арсенал и научит писать многопоточные и параллельные приложения. Отлично объяснит ООП, магические методы и дескрипторы. Задания тоже очень крутые, например: предстоит написать клиент и сервер для отправки метрик. Рекомендую.
Платформа stepik https://stepik.org/
На этой платформе я прошел несколько курсов и могу смело рекомендовать следующие:
- Основы статистики часть 1, 2, 3 от Bioinformatics Institute https://stepik.org/course/76/syllabus Этот курс помог мне освежить в памяти статистику. Очень крутые леции и лекторв, доступным языком объяснены сложные вещи. Три курса охватывают области, которые вам будут необходимы в работе. Неудобство вызывает R в части 2 и 3, но задания не сложные, можно решить гуглением и без того, что бы вникать в R.
- Курсы по алгоритмам: Алгоритмы: теория и практика. Структуры данных https://stepik.org/course/1547 и Алгоритмы: теория и практика. Методы https://stepik.org/course/217 Полезные курсы, даёт полное представление о базовых структурах данных и алгоритмах. Задачки можно выполнять на трёх языках — C++, Python, Java. Еще из плюсов это объяснение решений после выполнения задачек.
Разговоры о Data Science – закрытый канал для общения на тему карьеры, развития профессиональных навыков и применения навыков на работе.