Pandas для Data Science

Этой заметкой открываю серию статей для начинающих вкатываться в Data Sciеnce и Machine Learning и начнем мы с изучения Pandas. В интернете много статей по Pandas, поэтому хотел бы в этой заметки описать практические приемы для работы с Pandas в Data Sciеnce проектах и для построения моделей.

В качестве датасета будем использовать German Credit Risk на Kaggle

Датасет содержит информацию о кредитных данных:

  • Age (возраст)
  • Sex (пол)
  • Job (работа)
  • Housing (тип жилья)
  • Saving accounts (сберегательные счета)
  • Checking account (расчетный счет)
  • Credit amount (сумма кредита)
  • Duration (продолжительность кредита)
  • Purpose (цель кредита)
Pandas для Data Science

Читать далее

Простые шаги сделать ваш Python код лучше

У многих из вас есть GIT- репозитории с кодом, в этой заметке я расскажу как сделать ваш Python код лучше.

В качестве примера я буду использовать этот репозиторий: https://github.com/Aykhan-sh/pandaseda

Форкнем его и попробуем сделать код лучше.

Улучшим читаемость кода

Улучшить читаемость вашего кода очень просто. Мы будем использовать библиотеки для синтаксического форматирования и проверки.

Для начала создадим в репозитории файлы конфигураций для flake8, mypy и black

Читать далее

Выбираем логирование в Python: logging vs loguru

В этой заметке мы попробуем выбрать библиотеку для логирования в Python. Логи помогают зафиксировать и понять, что пошло не так в работе вашего микросервиса. Так же в логи часто пишут информационные сообщения. Например: параметры, метрики качества и ход обучения модели. Пример куска лога обучения модели:

Пример куска лога обучения модели
Пример куска лога обучения модели

Читать далее