Если вы так же как и я задумываетесь, а как LLM ж работает с MCP и насколько качественно оно выполняет вашу поставленную задачу, то новое исследование под названием MCPMark как раз об этом. Исследование разбивает все иллюзии об искусственном интеллекте о камень суровой реальности.
Почему существующие тесты не работают
Представьте, что вы оцениваете способность человека работать программистом, давая ему только задачи на чтение документации. Абсурд, правда? Но именно так работает большинство существующих бенчмарков для AI-агентов.
Исследователи из Национального университета Сингапура, EvalSys и других организаций обратили внимание на критическую проблему: современные тесты для оценки работы AI-агентов с Model Context Protocol (MCP) остаются узкими и нереалистичными. Они либо фокусируются на задачах, где нужно только читать информацию, либо предлагают взаимодействия с минимальной глубиной.
Это как проверять навыки вождения автомобиля, предлагая человеку только сидеть на пассажирском сиденье и описывать, что он видит за окном.
Читать далее →