Pandas для Data Science

Этой заметкой открываю серию статей для начинающих вкатываться в Data Sciеnce и Machine Learning и начнем мы с изучения Pandas. В интернете много статей по Pandas, поэтому хотел бы в этой заметки описать практические приемы для работы с Pandas в Data Sciеnce проектах и для построения моделей.

В качестве датасета будем использовать German Credit Risk на Kaggle

Датасет содержит информацию о кредитных данных:

  • Age (возраст)
  • Sex (пол)
  • Job (работа)
  • Housing (тип жилья)
  • Saving accounts (сберегательные счета)
  • Checking account (расчетный счет)
  • Credit amount (сумма кредита)
  • Duration (продолжительность кредита)
  • Purpose (цель кредита)
Pandas для Data Science

Читать далее

Способы регистрации обращений клиентов

Наиболее предпочтительным для пользователей и наиболее быстрым способом регистрации обращений является телефонная связь, рассмотрим 2 метода организации приема и маршрутизации обращений, поступающих посредством телефонных звонков.

Суть первого метода заключается в регистрации и разрешении 70% обращений без маршрутизации (эскалации) на вторую линию, при обеспечении максимальной доступности операторов и полноты информации, необходимой для обработки обращений на второй линии.

Для реализации данного метода необходимо наличие на первой линии высококвалифицированных специалистов, способных разрешать поступающие обращения с высокой скоростью. Для определения необходимого количества операторов первой линии применялись расчеты методом Эрланга (данный метод позволяет определить количество операторов с учетом пиковых нагрузок).

Читать далее

Расчет Monthly Recurring Revenue (MRR) в Python

Что такое Monthly Recurring Revenue?

Monthly Recurring Revenue — регулярный месячный доход. Эта метрика применяется в основном в подписных моделях. При этом сам доход нужно привести к месяцам.

Почему это ценно?

Если у нас есть подписной сервис мы имеем регулярныее или периодические платежи, то мы можем понять сколько денег мы заработаем и насколько наш бизнес эффективен. Далее, мы можем увеличить MRR за счет перехода клиентов на более дорогой тариф или попробовать снизить отток клиентов.

Читать далее

Когортный анализ в Python

Когортный анализ
Когортный анализ

Что такое когортный анализ?

Когортный анализ заключается в исследовании характеристик когорт/винтажей/поколений, объединенных по общим временным признакам.

Когорта/винтаж/поколение — это группа, сформированная особым образом по временному признаку: например, месяцу регистрации, месяцу первой транзакции или первого посещения сайта. Когорты очень похожи на сегменты с тем отличием, что когорта объединяет группы определенного промежутка времени, в то время как сегмент может быть основан на любых других характеристиках.

Почему это ценно?

Такой анализ может быть полезен, когда речь заходит о понимании здоровья вашего бизнеса и «липкости» — лояльности ваших клиентов. «Липкость» имеет решающее значение, так как гораздо дешевле и проще удерживать клиента, чем приобретать новых. Кроме того, ваш продукт развивается с течением времени. Новые функции добавляются и удаляются, изменяется дизайн и т. д. Наблюдение отдельных групп с течением времени является отправной точкой для понимания того, как эти изменения влияют на поведение пользователя/группы.

Читать далее

RFM анализ в Python

В моём телеграм канале я запустил новую рубрику — task. Суть рубрики — Я публикую задание каждый вторник с постановкой задачи и ссылкой на данные. Код с описанием хода решения задачи я размещаю в четверг. Задачи сделаны так, что бы на их решение нужно потратить не более пары часов. Подробный пост — https://t.me/renat_alimbekov/71

Постановка задачи

Первая задача — сделать RFM-анализ. Он делит пользователей на сегменты в зависимости от давности (Recency), частоты (Frequency) и общей суммы платежей (Monetary).

  • Recency — разница между текущей датой и датой последнего платежа
  • Frequency — количество транзакций
  • Monetary — сумма покупок

Эти три показателя нужно рассчитать отдельно для каждого покупателя. После чего поставить оценки от 1-3 или 1-5. Чем шире диапазон, тем более узкие сегменты у нас получатся.

Баллы можно выставить с использованием квантилей. Сортируем данные по одному из критериев и делим на равныегруппы.

Для этой задачи используем публичный датасет: https://www.kaggle.com/olistbr/brazilian-ecommerce и файлы olist_orders_dataset.csv и olist_order_payments_dataset.csv. Соединить их можно по order_id.

Читать далее