MCPMark: Новый стандарт оценки AI-агентов

Если вы так же как и я задумываетесь, а как LLM ж работает с MCP и насколько качественно оно выполняет вашу поставленную задачу, то новое исследование под названием MCPMark как раз об этом. Исследование разбивает все иллюзии об искусственном интеллекте о камень суровой реальности.

Почему существующие тесты не работают

Представьте, что вы оцениваете способность человека работать программистом, давая ему только задачи на чтение документации. Абсурд, правда? Но именно так работает большинство существующих бенчмарков для AI-агентов.

Исследователи из Национального университета Сингапура, EvalSys и других организаций обратили внимание на критическую проблему: современные тесты для оценки работы AI-агентов с Model Context Protocol (MCP) остаются узкими и нереалистичными. Они либо фокусируются на задачах, где нужно только читать информацию, либо предлагают взаимодействия с минимальной глубиной.

Это как проверять навыки вождения автомобиля, предлагая человеку только сидеть на пассажирском сиденье и описывать, что он видит за окном.

Что такое MCPMark и почему это меняет игру

MCPMark — это не просто очередной бенчмарк. Это стресс-тест, разработанный для проверки AI-агентов в условиях, максимально приближенных к реальной работе.

Ключевые особенности бенчмарка:

127 высококачественных задач, созданных совместно экспертами и AI-агентами. Каждая задача:

Начинается с тщательно подобранного начального состояния (шаблон базы данных, репозиторий GitHub с историей)
Требует выполнения разнообразных операций CRUD (Create, Read, Update, Delete)
Включает программную верификацию результата — никаких субъективных оценок

Пять различных сред тестирования:

Notion — управление документами и базами данных
GitHub — операции с репозиториями, PR, issues, CI/CD
Filesystem — работа с файлами и директориями
PostgreSQL — операции с реляционной базой данных
Playwright — автоматизация браузера и веб-взаимодействие

Программная верификация — подобно системе наград в GRPO с компиляцией кода. Каждая задача включает скрипт программы для автоматической проверки результата, что делает оценку максимально объективной.

Результаты, которые отрезвляют

Топ-модели терпят неудачу

GPT-5-medium — лучшая из протестированных моделей — смогла успешно выполнить задачу с первой попытки всего в 52.56% случаев. Это означает, что почти в половине ситуаций флагманская модель не справилась с заданием.

Но настоящая глубина проблемы раскрывается в метрике pass^4 — она оценивает успех после четырёх попыток. Здесь результат GPT-5-medium падает до 33.86%. Даже получив четыре шанса, лучшая модель терпит неудачу в двух третях случаев!

Сравнительная таблица лидеров:

Результаты других сильных моделей выглядят ещё более удручающе: Claude-Sonnet-4 и o3 показывают менее 30% успеха с первой попытки и ниже 15% — с четырёх.

Это марафон, а не спринт: новый стандарт сложности

Задачи в MCPMark — это не быстрые, одношаговые команды. Исследование показывает, что для решения одной задачи моделям в среднем требуется:

16.2 шага выполнения
17.4 вызова внешних инструментов

Это кардинально отличается от предыдущих тестов, где агенты справлялись за 3-7 шагов.

Как отмечают авторы:

«Эти показатели значительно превосходят показатели предыдущих бенчмарков MCP, что подчеркивает природу MCPMark как настоящего стресс-теста для AI-агентов.»

Это свидетельствует о переходе от простых запросов в стиле «вопрос-ответ» к задачам, требующим планирования, адаптации и исправления ошибок в реальном времени — навыков, которые до сих пор оставались преимущественно человеческими.

Больше, чем просто чтение: AI должны создавать, изменять и удалять

Ключевое отличие MCPMark от предшественников — характер задач.

Старые тесты фокусировались на задачах с преобладанием чтения (read-heavy tasks) или с ограниченной глубиной взаимодействия. Новый бенчмарк требует от агентов выполнения всего спектра операций CRUD:

Create — создание новых записей, файлов, PR
Read — чтение и анализ информации
Update — обновление существующих данных
Delete — удаление устаревшей информации

Примеры реальных задач из MCPMark:

Filesystem — «Contact Information»: Извлечь контактную информацию из различных форматов файлов на рабочем столе и выполнить анализ собранных данных о взаимосвязях.

GitHub — «Linting CI Workflow»: Настроить рабочий процесс ESLint для обеспечения качества кода при всех PR с правильной интеграцией CI. Включает создание ветки конфигурации, настройку ESLint, создание workflow и исправление ошибок линтинга.

Notion — «Toronto Guide»: Изменить все элементы розового цвета (теги в базах данных и цвета фона callout) на другие цвета на странице «Toronto Guide».

Playwright — «Cloudflare Turnstile Challenge»: Использовать инструменты Playwright MCP для прохождения аутентификации Cloudflare Turnstile.

PostgreSQL — «Employee Project Tracking»: Построить систему отслеживания с таблицами для проектов, назначений, вех и индексов производительности с внешними ключами и начальными данными.

Эта способность — не просто техническая деталь. Она является фундаментальной для создания по-настоящему «универсальных агентов» (general agents), способных не пассивно извлекать информацию, а активно и осмысленно взаимодействовать с внешними системами.

Анатомия провала: почему модели не справляются

Исследователи провели детальный анализ причин неудач и выявили интересные паттерны.

Implicit vs Explicit failures

Большинство ошибок (более 50-80% в зависимости от модели) — это implicit failures. Модель завершает задачу, не столкнувшись с явными ошибками, но результат не соответствует требованиям. Это говорит о проблемах:

Рассуждения и планирования
Понимания контекста
Использования инструментов

Explicit failures включают:

Переполнение контекстного окна (особенно у GPT-5-high)
Превышение лимита ходов (характерно для Kimi-K2-instruct)
Преждевременная остановка
Некорректные вызовы инструментов (около 10% у Gemini-2.5-flash)

Больше ходов ≠ лучший результат

Интересное открытие: более успешные модели справляются с меньшим количеством целенаправленных вызовов инструментов, а не через слепой перебор.

Например, Kimi-K2-instruct часто входит в режим «overcalling», превышая 30 ходов с уменьшающейся вероятностью успеха — модель застревает в цикле без эффективного извлечения информации.

В то же время GPT-5-medium достигает наивысшего результата, поддерживая разумный бюджет ходов, демонстрируя, что успех возникает из эффективного принятия решений, а не из исчерпывающих вызовов инструментов.

Разрыв между локальными и удаленными сервисами

Производительность существенно варьируется в зависимости от типа MCP-среды.

Локальные сервисы (легче):

PostgreSQL: GPT-5-medium достигает 76.19% pass@1
Filesystem: 57.50% pass@1
Playwright: 43.00% pass@1

Удаленные сервисы (сложнее):

Notion: большинство моделей ниже 25% pass@1
GitHub: аналогично низкие результаты

Почему такой разрыв? Локальные сервисы легче симулировать, и для них существует больше обучающих данных. Удаленные сервисы API требуют подлинных трасс взаимодействия, которые дорого собирать в масштабе.

Это наводит на мысль: данные остаются ключом к улучшению использования MCP.

Reasoning effort: помогает ли думать дольше?

Исследователи проверили, как влияет увеличение «усилий рассуждения» (reasoning effort) на результаты.

Выводы по моделям:

GPT-5: средний уровень рассуждений повышает pass@1 до 52.56% с 46.85% на низком уровне.

GPT-5-mini: еще более сильный относительный прирост — от 8.27% до 30.32% между низким и высоким.

GPT-5-nano: показывает только маргинальные изменения около 4-6%, предполагая, что модели такого масштаба не обладают достаточной емкостью для использования дополнительных токенов рассуждений.

Claude-Sonnet-4: остается стабильной около 27-28%, независимо от уровня рассуждений.

Выводы по сервисам:

Удаленные сервисы выигрывают больше всего:

GitHub: производительность почти удваивается с 27.17% до 50.00% между низким и высоким усилием для GPT-5
Notion: рост с 36.61% до 44.64%

Локальные сервисы остаются стабильными:

PostgreSQL: 72-76%
Filesystem: вариации менее 5 процентных пунктов

Интерпретация: Удаленные сервисы обычно имеют ограниченное представление в обучающих данных из-за ограничений скорости и доступа. Рассуждения помогают преодолеть этот разрыв, позволяя моделям экстраполировать на невиданные случаи.

Это согласуется с недавними дискуссиями (Yao et al., 2023b; Yao, 2025), которые подчеркивают, что «язык обобщается через рассуждения в агентах».

Стоимость ≠ качество

Еще один удивительный вывод: более дорогие запуски не приводят к более высокой точности.

Некоторые из самых дорогих запусков достигают более низкого pass@1, в то время как несколько более дешевых запусков достигают более сильных результатов. Стоимость варьируется широко, даже когда количество ходов схоже.

Вывод: Одна только стоимость не является показателем лучших результатов.

Что это значит для будущего AI-агентов

Результаты MCPMark служат важным напоминанием: несмотря на поразительный прогресс в языковых способностях, мы всё ещё находимся на ранних этапах создания по-настоящему автономных и надёжных AI-агентов.

Три критических направления для будущего прогресса:

1. От реактивного использования инструментов к сложным рассуждениям

Агенты должны эволюционировать от простой реакции на запросы к более изощренным рассуждениям. Анализ показывает, что успех зависит от принятия меньшего количества, но более умных решений, а не от большего числа попыток. Рассуждения могут обеспечить лучшую генерализацию в агентах.

2. Долгосрочное выполнение задач требует контекстной эффективности

Проблема не только в контекстном окне модели, но и в способности агента управлять постоянно растущей историей. Это требует:

Лучших стратегий суммаризации
Более конкретных выходов инструментов
Эффективного управления памятью

3. Стабильность выполнения — критична

Наблюдаемая несогласованность между несколькими запусками подчеркивает основную ненадежность, которая может быть решена только путем создания агентов с:

Надежной обработкой ошибок
Возможностями самокоррекции
Детерминированным поведением

Ограничения и будущие направления

Авторы исследования честно признают ограничения:

Сложность масштабирования: Даже с помощью агентов, создание каждого образца остается трудоемким. Каждая задача занимает 3-5 часов сфокусированных усилий экспертов.

Градиент сложности: Крутая сложность многих задач ограничивает полезность бенчмарка для оценки и развития меньших, более эффективных моделей.

Детерминированность: Все задачи имеют четкие критерии успеха. В реальном мире часто встречаются задачи с неоднозначным намерением пользователя, требующие от агента способности задавать уточняющие вопросы.

Будущая работа должна сосредоточиться на:

Введении более детального градиента сложности
Полуавтоматизированной генерации задач
Задачах с неоднозначным намерением
Расширении на более широкое разнообразие MCP-серверов

Как создавались задачи: human-AI collaboration в действии

Процесс создания MCPMark заслуживает отдельного внимания, так как демонстрирует будущее разработки бенчмарков.

Четырехэтапный pipeline:

I. Exploration (Исследование): Эксперт и агент создания задач совместно изучают окружение, руководствуясь высокоуровневой инструкцией, основанной на экспертизе и реальном опыте.

II. Evolvement (Эволюция): Агент предлагает новую инструкцию или усовершенствует существующую, добавляя сложность. Эксперт гарантирует, что задача остается практичной, проверяемой и достаточно сложной.

III. Verification (Верификация): Агент создает программный скрипт верификации. Эксперт выполняет задачу с помощью агента исполнения, затем скрипт выполняется и итеративно улучшается до полного соответствия инструкции.

IV. Iteration (Итерация): Шаги II и III повторяются для постепенного увеличения сложности при сохранении автоматической проверяемости и реализма.

В проекте участвовали 10 экспертов с разным background:

PhD студенты в computer science
Front-end дизайнеры
Full-stack & AI infra инженеры
AI инвесторы

Заключение: реальность против хайпа

MCPMark — это не просто очередной академический бенчмарк. Это зеркало, которое отражает истинное состояние AI-агентов в 2025 году.

Ключевые выводы:

Даже лучшие модели справляются с реалистичными задачами менее чем в 53% случаев

Разрыв между pass@1 и pass^4 показывает критическую проблему стабильности

Удаленные сервисы остаются значительно сложнее локальных

Больше ходов не равно лучшему результату — важно качество рассуждений

Reasoning effort помогает, но не является универсальным решением

Способность красиво говорить — это одно, а безошибочно выполнять сложные, многошаговые задачи в реальной цифровой среде — совсем другое.

Новый бенчмарк ясно показывает, где пролегают текущие границы возможностей. И эти границы — гораздо ближе, чем нам хотелось бы думать.

Ссылки:

Статья: https://arxiv.org/abs/2509.24002
Сайт проекта: https://mcpmark.ai/
GitHub: https://github.com/eval-sys/mcpmark

Share it