Pandas для Data Science

Этой заметкой открываю серию статей для начинающих вкатываться в Data Sciеnce и Machine Learning и начнем мы с изучения Pandas. В интернете много статей по Pandas, поэтому хотел бы в этой заметки описать практические приемы для работы с Pandas в Data Sciеnce проектах и для построения моделей.

В качестве датасета будем использовать German Credit Risk на Kaggle

Датасет содержит информацию о кредитных данных:

  • Age (возраст)
  • Sex (пол)
  • Job (работа)
  • Housing (тип жилья)
  • Saving accounts (сберегательные счета)
  • Checking account (расчетный счет)
  • Credit amount (сумма кредита)
  • Duration (продолжительность кредита)
  • Purpose (цель кредита)
Pandas для Data Science

Читать далее

Поиск удаленной работы в 2024 году

Решил я написать пост о том как я искал в этом году удаленную работу в сфере DS/ML/DA/CV/NLP.
Я не могу сказать, что искал работу сильно активно, но если видел интересные проекты и позиции, то откликался.

В этом посте я хочу поделиться своими наблюдениями и рейтингом ресурсов по поиску работы:

6. @g_jobbot getmatch — телеграм бот с вакансиями. Из плюсов можно подписать на определённый тип вакансии и условия работы (зарплата, удаленка и т.д.) Мне бот не понравился, ответов в случае отклика практически нет и они в основном по вакансиям Яндекса.

5. Различные job boards. Ссылка на список. Еще больше во вложенном файле. Тут у меня за всё время был один ответ с https://wellfound.com/ (бывший angellist jobs) с тестовым заданием.

4. linkedin — много крутых вакансий, много удаленки. Практически 0 ответов если откликаешься сам. Но достаточно часто рекрутеры пишут в личку. Еще из рабочих вариантов самому писать рекрутерам из понравившихся вакансий. Во всяком случае это даёт хоть какие-то интервью.

3. hh.kz — так как я из Казахстана, то в основном хороший ресурс для поиска локальной работы. Удаленки почти нет.

2. singularis slack — один из лучших вариантов для поиска удаленной работы. Из плюсов в канале jobs публикуют вакансии с вилками и контактами HR или нанимающего менеджера. Большинство отвечают быстро, много удаленки, часто хорошие зарплаты. Рекомендую.

1. Телеграм каналы с вакансиями. Это лучший источник вакансий и коммуникаций. Сам я нашел текущую работу именно там. Чаще всего вакансии публикуются с вилками и контактами HR или нанимающего менеджера.

Вложенный файл с job boards и ссылку на мою папку каналов с вакансиями вы найдете у меня в телеграм канале

Подписывайтесь =)

Разговоры о Data Science – закрытый канал для общения на тему карьеры, развития профессиональных навыков и применения навыков на работе.

Погружение в LLM часть вторая

В первой части мы разобрали практическую часть погружения в LLM.

В этой части мы поговорим про ключевые пейперы, которые помогут в понимании LLM и прохождение собеседований =) Но об этом позже.

Все начинается с первой гпт

Затем рекомендую прочитать работу про InstructGPT. Там раскрыта тема обучения с фидбеком от человека.

Дальше есть пара интересных пейперов:

Затем рекомендую ознакомиться с двумя воистину знаковых пейпера: LORA и QLORA, которые решают следующие проблемы:

  • скорость обучения
  • вычислительные ресурсы
  • эффективность памяти

Еще два не менее важных пейпера PPO и DPO. Понимание этих работ поможет в ревард моделинге.

Ну и на последок:

Всем приятного чтения

Разговоры о Data Science – закрытый канал для общения на тему карьеры, развития профессиональных навыков и применения навыков на работе.

Погружение в LLM часть первая

Я тут начал погружаться в LLM чуть глубже и лично для меня гораздо проще начинать погружение через практику.

Таким образом можно понять все ключевые концепции и наметить себе список пейперов для дальнейшего ознакомления.

Начал я с заметки StackLLaMA: A hands-on guide to train LLaMA with RLHF

Тут вы сразу сможете ознакомиться с концепциями Reinforcement Learning from Human Feedback, эффективной тренировкой с помощью LoRA, PPO.

Так же вы познакомитесь с зоопарком библиотек huggingface: accelerate, bitsandbytes, peft и trl.

В заметке используется StackExchange датасет, но для разнообразия могу посоветовать вам использовать датасет Anthropic/hh-rlhf

Во второй части пройдемся по ключевым пейперам

Разговоры о Data Science – закрытый канал для общения на тему карьеры, развития профессиональных навыков и применения навыков на работе.

Какие фреймворки должен знать продакт-менеджер

Product Management требует глубокого понимания рынка, конкуренции, болевых точек и потребностей клиентов. Задачи, которые решает продакт менеджер очень разнообразны — от принятия важных решений по продукту до сотрудничества с маркетологами, приходится часто переключаться на контекст и посещать множество встреч. Вот почему продакт менеджеры обычно полагаются на разные фреймворки для оптимизации рабочих процессов, создания повторяемых процессов и поддержки устойчивого развития продукта. В этой заметке я постараюсь описать лучшие фреймворки и объясню, как получить максимальную отдачу от каждого из них.

Гибкие методологии и фреймворки

Вот несколько Agile- структур и подходов, которые можно использовать в циклах разработки продуктов.

Lean Canvas

Lean Canvas

Читать далее