Блог Рената Алимбекова про Data Science, ML и LLM

Выбор LLM для генерации контента: характеры моделей

Выбор LLM для генерации контента» с чипами моделей Gemini, Claude, DeepSeek, GPT и Grok

За последний год я перепробовал десяток моделей на реальной генерации контента от Reels-сценариев до лонгридов. Вывод простой и немного неудобный: универсальной лучшей модели нет. У каждой свой характер, и выбор зависит от типа контента и аудитории.

В этом посте как я подбираю модель под задачу, какой пайплайн гоняю в продукте и чем это подкреплено: данными LMArena, FLASK, Arena Expert и собственным экспериментом по измерению креативности.

Коротко

Нет лучшей модели есть характеры. Gemini объясняет, Claude рассказывает, DeepSeek штампует дёшево, GPT строг и формален.
Рабочий пайплайн: дёшево генерим черновики (DeepSeek / Gemini Flash) → фильтруем → полируем на Claude Sonnet.
Для креатива thinking-модели не дают преимущества, а Claude лидирует в Problem Handling по FLASK.
Я проверил креативность числом: одна фраза в промпте поднимает разброс ответов почти вдвое.

Читать далее →

Как вывести приложение в топ-1: разбор плейбука Cal AI

Наткнулся на пост кофаундера, который вёл маркетинг и операционку в Cal AI – счётчике калорий, доросшем до №1 в Health & Fitness за 18 месяцев. Внутри – рабочая механика инфлюенс-маркетинга. Как оценивать креаторов за 20 секунд, где на рынке спрятаны деньги, почему брифы всё портят.

Добавил свои заметки

Коротко

Узкое место любого consumer-приложения – дистрибуция, а не продукт.
Креатора видно за 20 секунд: просмотры, комментарии, дружил бы с ним?.
Деньги в средних креаторах. Верх и низ рынка переплачены.
Платите фикс, никогда за просмотр.
Вы покупаете аудиторию, а не блогера.
Минимальный бриф плюс автоматизация – и сотни партнёрств тянут четыре человека.
Единственный ров, который остался, – скорость.

Читать далее →

Как llms.txt увеличил трафик с AI-чатов на 23%

Четыре месяца назад я добавил на блог файлы llms.txt и llms-full.txt. Пора посмотреть, что это дало в цифрах.

Коротко о llms.txt

Это robots.txt для языковых моделей. Файл в корне сайта помогает AI-системам — ChatGPT, Perplexity, Claude, Gemini — лучше понимать структуру и содержание контента. Подробнее писал в отдельном посте.

Методология

Сравнил два периода по 4 месяца:

Период	Даты	Статус
До	18 марта — 17 июля 2025	без llms.txt
После	18 июля — 18 ноября 2025	с llms.txt

Источник — Яндекс.Метрика, отчёт «Переходы по ссылкам на сайтах».

Отфильтровал домены AI-чатов: chatgpt.com, perplexity.ai, chat.deepseek.com, gemini.google.com, chat.qwen.ai, copilot.microsoft.com, alice.yandex.ru.

Читать далее →

MCPMark: Новый стандарт оценки AI-агентов

Если вы так же как и я задумываетесь, а как LLM ж работает с MCP и насколько качественно оно выполняет вашу поставленную задачу, то новое исследование под названием MCPMark как раз об этом. Исследование разбивает все иллюзии об искусственном интеллекте о камень суровой реальности.

Почему существующие тесты не работают

Представьте, что вы оцениваете способность человека работать программистом, давая ему только задачи на чтение документации. Абсурд, правда? Но именно так работает большинство существующих бенчмарков для AI-агентов.

Исследователи из Национального университета Сингапура, EvalSys и других организаций обратили внимание на критическую проблему: современные тесты для оценки работы AI-агентов с Model Context Protocol (MCP) остаются узкими и нереалистичными. Они либо фокусируются на задачах, где нужно только читать информацию, либо предлагают взаимодействия с минимальной глубиной.

Это как проверять навыки вождения автомобиля, предлагая человеку только сидеть на пассажирском сиденье и описывать, что он видит за окном.

Читать далее →

Как стать AI-first специалистом прямо сейчас

Последние пару лет я работаю Data Science и Data Analytics консультантом. Мои клиенты — компании и стартапы из разных стран мира.

Сегодня я убежден: неважно, кто ты по профессии — юрист, рекрутер, продакт-менеджер или дизайнер — обязательное условие для работы в 2025 году: ты должен быть AI-first и на 100% интегрировать разные ИИ-инструменты и подходы в свои рабочие процессы.

Почему это критично прямо сейчас?

За последний год я увеличил свою продуктивность в 3-4 раза благодаря правильному использованию AI-инструментов. То, что раньше занимало несколько дней исследований, теперь делаю за день. Проекты, которые требовали команды из 2-3 человек, теперь выполняю один.

В этом посте я расскажу о своих топ AI инструментах, которые я использую каждый день, плюс дополнительные инструменты для специфических задач.

Читать далее →