MCPMark: Новый стандарт оценки AI-агентов

Если вы так же как и я задумываетесь, а как LLM ж работает с MCP и насколько качественно оно выполняет вашу поставленную задачу, то новое исследование под названием MCPMark как раз об этом. Исследование разбивает все иллюзии об искусственном интеллекте о камень суровой реальности.

Почему существующие тесты не работают

Представьте, что вы оцениваете способность человека работать программистом, давая ему только задачи на чтение документации. Абсурд, правда? Но именно так работает большинство существующих бенчмарков для AI-агентов.

Исследователи из Национального университета Сингапура, EvalSys и других организаций обратили внимание на критическую проблему: современные тесты для оценки работы AI-агентов с Model Context Protocol (MCP) остаются узкими и нереалистичными. Они либо фокусируются на задачах, где нужно только читать информацию, либо предлагают взаимодействия с минимальной глубиной.

Это как проверять навыки вождения автомобиля, предлагая человеку только сидеть на пассажирском сиденье и описывать, что он видит за окном.

Читать далее

Как стать AI-first специалистом прямо сейчас

Последние пару лет я работаю Data Science и Data Analytics консультантом. Мои клиенты — компании и стартапы из разных стран мира.

Сегодня я убежден: неважно, кто ты по профессии — юрист, рекрутер, продакт-менеджер или дизайнер — обязательное условие для работы в 2025 году: ты должен быть AI-first и на 100% интегрировать разные ИИ-инструменты и подходы в свои рабочие процессы.

Почему это критично прямо сейчас?

За последний год я увеличил свою продуктивность в 3-4 раза благодаря правильному использованию AI-инструментов. То, что раньше занимало несколько дней исследований, теперь делаю за день. Проекты, которые требовали команды из 2-3 человек, теперь выполняю один.

В этом посте я расскажу о своих топ AI инструментах, которые я использую каждый день, плюс дополнительные инструменты для специфических задач.

Читать далее

Open LLM модели GPT-OSS от OpenAI и не только

Август 2025 года ознаменовался выходом нескольких значимых обновлений и совершенно новых моделей в области искусственного интеллекта, которые обещают существенно изменить ландшафт ИИ. Anthropic, Google DeepMind и OpenAI представили свои последние достижения, демонстрируя прогресс в агентных задачах, генерации миров и открытых языковых моделях. Давайте рассмотрим эти релизы.

Открытые Модели GPT-OSS от OpenAI

OpenAI наконец-то открыли свои модели, выпустив GPT-OSSсемейство открытых моделей, предназначенных для мощного рассуждения, агентных задач и универсальных сценариев использования для разработчиков. В рамках этой серии представлены две модели:

  • gpt-oss-120b: Большая модель со 117 миллиардами общих параметров (и 5.1 миллиардами активных), предназначенная для производственных, общих и высокорассуждающих случаев использования, которая помещается на одной H100 GPU (80 ГБ).
  • gpt-oss-20b: Меньшая модель с 21 миллиардом общих параметров (и 3.6 миллиардами активных), предназначенная для снижения задержки, локального или специализированного использования, которая работает в пределах 16 ГБ памяти, идеально подходя для потребительского оборудования.

Читать далее

Что такое Llms.txt? Структура llms.txt файла

Что такое llms.txt файл

Llms.txt — это специальный текстовый файл , который позволяет сайтам быть более эффективно понятыми системами искусственного интеллекта и большими языковыми моделями. Файл размещается в корневой директории сайта и помогает ИИ-системам вроде ChatGPT, Google Gemini, Claude и Perplexity более точно обрабатывать контент.

Происхождение и цель

Формат llms.txt был предложен Джереми Ховардом в сентябре 2024 года как решение проблемы сложности HTML-структур для ИИ-систем. Веб-контент часто содержит сложные структуры, навигационные меню, рекламу и JavaScript, что затрудняет понимание содержимого языковыми моделями.

Читать далее

Retrieval-Augmented Generation (RAG): Последние Исследования и Вызовы

В современном мире AI-технологий Retrieval-Augmented Generation (RAG) становится все более значимым подходом, сочетающим возможности информационного поиска с генеративными способностями больших языковых моделей (LLM). Это позволяет преодолеть ряд ограничений, с которыми сталкиваются традиционные LLM, и обеспечить более точные и основанные на фактах ответы.

Что такое RAG?

RAG — это не отдельная технология, а целый «зонтик» различных компонентов, дизайнерских решений и адаптаций для конкретных доменов. Типичная RAG-система включает:

  1. Компонент приема данных: где данные обрабатываются, встраиваются и сохраняются как контекстные документы в векторной базе данных
  2. Компонент извлечения: где контекстные документы извлекаются и ранжируются по релевантности запросу
  3. Компонент запроса: где промпт с запросом комбинируется с результатами поиска и отправляется в LLM

Читать далее