У начинающих Дата Саентистов резюме состоит из пройденных курсов, образования и возможно не самого релевантного опыта работы. Такие резюме мало чем отличаются от основной массы соискателей.
Работа над pet project отличная возможность прокачать навыки. Если добавить в резюме реализованный pet-project оно сразу станет привлекательным и появится тема для разговора на интервью.
Так, что же такое pet-project? Pet-project — это проект, который делается ради себя. Он создается вне работы и часто связан с личным интересом. Например: спорт, электроника, приготовление еды, автомобили, путешествия, медицина и т.д. Проект поможет расширить профессиональные навыки и научиться новым, которые пригодятся в работе.
Вот несколько идей для проектов в Data Science, к реализации которых уже можно приступить:
Обнаружение болезни Паркинсона
Датасет — https://archive.ics.uci.edu/ml/machine-learning-databases/parkinsons/ Задача — Построить модель, которая определяет наличие болезни Паркинсона у человека.
Чему научитесь:
- Работа с табличными данными
- Работа с библиотеками градиентного бустинга. Например: XGBoost
- Работать с платформами для размещения сервиса онлайн. Например: Heroku
- Делать сайт, который сможет по заданным вопросам определять наличие болезни Паркинсона у человека. Вывод модели в продакшн.
Система аналитики телеграм каналов
Датасет — нужно собрать самим, используя API telegram
Задача — сделать сервис, который парсит заданный телеграм канал и выдаёт полезную аналитику.
Чему научитесь:
- Работа с API telegram
- Работа с текстом
- Бибилиотеки: pandas, nltk, pymorphy2, spacy и другие
- Работать с платформами для размещения сервиса онлайн. Например: Heroku
- Делать сайт, который по указанному имени канала выдаёт полезную аналитику.
Код для парсера и аналитки можно посмотреть тут
Генерация фона музыкальных альбомов
Датасет — нужно собрать самим, используя парсинг обложек, описание альбомов. Например можно использовать API Spotify.
Задача — генерировать обложку музыкального альбома по жанру.
Чему научитесь:
- Работа с GAN
- Работа с API Spotify, beautifulsoup, selenium для парсинга данных
- Бибилиотеки: pytorch/keras/tf, openCV и другие
- Работать с платформами для размещения сервиса онлайн. Например: Heroku
Пейпер на эту тему — https://ryanmcconville.com/publications/AlbumCoverGenerationFromGenreTags.pdf
Изучение загрязнения воздуха
Датасет — нужно собрать самим или если воспользоваться открытыми. Например, данные с сайта https://airkaz.org/ с показаниями датчиков доступны Для получения более свежих данны обратитесь к создателю сайта.
Задача — сделать полезный анализ данных, сделать модель, определить трэнд, сезонность , добавить внешние связынные данные. Например, погоду.
Чему научитесь:
- Работа с временными рядами.
- Бибилиотеки: pandas, seaborn, folium, fbprophet и другие
- Сделать интерактивный сервис с ипользованием, например, Heroku и https://www.streamlit.io/
Код доступен — https://github.com/alimbekovKZ/jupyter_notebooks_2/tree/master/airkaz
Придумайте проект на любую тему. План действий может примерно такой:
- Найти данные. Данные могут быть или готовые из открытых источников или собраны из Интернета. Рекомендую собрать данные самим. Это разовьёт навыки парсинга и использование таких инструментов как selenium и beautifulsoup
- Сделать размкетку данных, если это необходимо
- Натренировать модели машинного обучения/ сделать автоматическую аналитику
- Реализовать сервис для работы модели машинного обучения. Рекомендую посмотреть в сторону — https://www.streamlit.io/
- Разместить сервис на платформе, например: Heroku
Дополнительно к прочтению, статья на тему pet-project — https://habr.com/ru/company/ods/blog/335998/
После реализации проекта будет, что показать потенциальному работодателю и можно будет вести предметный разговор о навыках и опыте который приобрели, делая проект.
Разговоры о Data Science – закрытый канал для общения на тему карьеры, развития профессиональных навыков и применения навыков на работе.