Заметки про Machine Learning, Data Science и Analytics Engineering

Как сделать резюме привлекательным с помощью pet project

У начинающих Дата Саентистов резюме состоит из пройденных курсов, образования и возможно не самого релевантного опыта работы. Такие резюме мало чем отличаются от основной массы соискателей.

Работа над pet project отличная возможность прокачать навыки. Если добавить в резюме реализованный pet-project оно сразу станет привлекательным и появится тема для разговора на интервью.

Так, что же такое pet-project? Pet-project — это проект, который делается ради себя. Он создается вне работы и часто связан с личным интересом. Например: спорт, электроника, пригтовление еды, автомобили, путешествия, медицина и т.д. Проект поможет расширить профессиональные навыки и научиться новым, которые пригодятся в работе.

Вот несколько идей для проектов в Data Science, к реализации которых уже можно приступить:

Обнаружение болезни Паркинсона

Датасет — https://archive.ics.uci.edu/ml/machine-learning-databases/parkinsons/ Задача — Построить модель, которая определяет наличие болезни Паркинсона у человека.

Чему научитесь:

  • Работа с табличными данными
  • Работа с библиотеками градиентного бустинга. Например: XGBoost
  • Работать с платформами для размещения сервиса онлайн. Например: Heroku
  • Делать сайт, который сможет по заданным вопросам определять наличие болезни Паркинсона у человека. Вывод модели в продакшн.
Датасет для определения наличия болезни Паркинсон

Система аналитики телеграм каналов

Датасет — нужно собрать самим, используя API telegram

Задача — сделать сервис, который парсит заданный телеграм канал и выдаёт полезную аналитику.

Чему научитесь:

  • Работа с API telegram
  • Работа с текстом
  • Бибилиотеки: pandas, nltk, pymorphy2, spacy и другие
  • Работать с платформами для размещения сервиса онлайн. Например: Heroku
  • Делать сайт, который по указанному имени канала выдаёт полезную аналитику.

Код для парсера и аналитки можно посмотреть тут

График динамики постов в телеграм канале
График динамики постов в телеграм канале

Генерация фона музыкальных альбомов

Датасет — нужно собрать самим, используя парсинг обложек, описание альбомов. Например можно использовать API Spotify.

Задача — генерировать обложку музыкального альбома по жанру.

Чему научитесь:

  • Работа с GAN
  • Работа с API Spotify, beautifulsoup, selenium для парсинга данных
  • Бибилиотеки: pytorch/keras/tf, openCV и другие
  • Работать с платформами для размещения сервиса онлайн. Например: Heroku
Сравнение оригинальных обложок с сгенерированными

Пейпер на эту тему — https://ryanmcconville.com/publications/AlbumCoverGenerationFromGenreTags.pdf

Изучение загрязнения воздуха

Датасет — нужно собрать самим или если воспользоваться открытыми. Например, данные с сайта https://airkaz.org/ с показаниями датчиков доступны Для получения более свежих данны обратитесь к создателю сайта.

Задача — сделать полезный анализ данных, сделать модель, определить трэнд, сезонность , добавить внешние связынные данные. Например, погоду.

Чему научитесь:

  • Работа с временными рядами.
  • Бибилиотеки: pandas, seaborn, folium, fbprophet и другие
  • Сделать интерактивный сервис с ипользованием, например, Heroku и https://www.streamlit.io/
Карта г. Алматы с отметками датчиков и средним замером загрязнения воздуха
Карта г. Алматы с отметками датчиков и средним замером загрязнения воздуха

Код доступен — https://github.com/alimbekovKZ/jupyter_notebooks_2/tree/master/airkaz

Придумайте проект на любую тему. План действий может примерно такой:

  1. Найти данные. Данные могут быть или готовые из открытых источников или собраны из Интернета. Рекомендую собрать данные самим. Это разовьёт навыки парсинга и использование таких инструментов как selenium и beautifulsoup
  2. Сделать размкетку данных, если это необходимо
  3. Натренировать модели машинного обучения/ сделать автоматическую аналитику
  4. Реализовать сервис для работы модели машинного обучения. Рекомендую посмотреть в сторону — https://www.streamlit.io/
  5. Разместить сервис на платформе, например: Heroku

Дополнительно к прочтению, статья на тему pet-project — https://habr.com/ru/company/ods/blog/335998/

После реализации проекта будет, что показать потенциальному работодателю и можно будет вести предметный разговор о навыках и опыте который приобрели, делая проект.

Share it

Если вам понравилась заметка - подписывайтесь на мой канал в телеграме https://t.me/renat_alimbekov или вы можете поддержать меня Become a Patron!


Интересные записи в этой рубрике: