Open LLM модели GPT-OSS от OpenAI и не только

Август 2025 года ознаменовался выходом нескольких значимых обновлений и совершенно новых моделей в области искусственного интеллекта, которые обещают существенно изменить ландшафт ИИ. Anthropic, Google DeepMind и OpenAI представили свои последние достижения, демонстрируя прогресс в агентных задачах, генерации миров и открытых языковых моделях. Давайте рассмотрим эти релизы.

Открытые Модели GPT-OSS от OpenAI

OpenAI наконец-то открыли свои модели, выпустив GPT-OSSсемейство открытых моделей, предназначенных для мощного рассуждения, агентных задач и универсальных сценариев использования для разработчиков. В рамках этой серии представлены две модели:

  • gpt-oss-120b: Большая модель со 117 миллиардами общих параметров (и 5.1 миллиардами активных), предназначенная для производственных, общих и высокорассуждающих случаев использования, которая помещается на одной H100 GPU (80 ГБ).
  • gpt-oss-20b: Меньшая модель с 21 миллиардом общих параметров (и 3.6 миллиардами активных), предназначенная для снижения задержки, локального или специализированного использования, которая работает в пределах 16 ГБ памяти, идеально подходя для потребительского оборудования.

Обе модели выпускаются под разрешительной лицензией Apache 2.0, что позволяет свободно использовать их для экспериментов, настройки и коммерческого развертывания без ограничений.

Ключевые особенности GPT-OSS включают:

  • Настраиваемый уровень рассуждения (низкий, средний, высокий) для балансировки между скоростью и детализацией.
  • Полный Chain-of-Thought (CoT), предоставляющий доступ к процессу рассуждения модели для отладки и повышения доверия (не предназначен для конечных пользователей).
  • Агентурные возможности, включая встроенные инструменты для веб-браузинга, вызова функций с определенными схемами и выполнения Python кода.
  • Нативная MXFP4 квантизация для слоя MoE, обеспечивающая эффективное использование памяти.

По производительности gpt-oss-120b почти не уступает OpenAI o4-mini на основных бенчмарках рассуждения и даже превосходит o4-mini по запросам, связанным со здоровьем (HealthBench) и соревновательной математике (AIME 2024 & 2025). gpt-oss-20b соответствует или превосходит OpenAI o3-mini, несмотря на меньший размер. Модели также показывают отличные результаты в использовании инструментов и CoT рассуждении.

HealthBench  gpt-oss
benchmark gpt-oss

Безопасность является фундаментальным аспектом подхода OpenAI. Модели прошли комплексное обучение и оценки безопасности, включая тестирование версии gpt-oss-120b, специально настроенной для противодействия. Результаты показывают, что даже при злонамеренной тонкой настройке модели не смогли достичь высоких уровней возможностей по внутренней системе Preparedness Framework. OpenAI также объявила о Red Teaming Challenge с призовым фондом в 500 000 долларов для поощрения исследователей к выявлению новых проблем безопасности.

Модели GPT-OSS легко развертываются и доступны для загрузки на Hugging Face, поддерживаются ведущими платформами, такими как Azure, Hugging Face, vLLM, Ollama, llama.cpp, LM Studio, AWS и многими другими. Microsoft также выпускает GPU-оптимизированные версии gpt-oss-20b для устройств Windows.

Источник 1

Источник 2

Claude Opus 4.1 от Anthropic: Улучшенная Кодирование и Анализ Данных

Anthropic выпустила Claude Opus 4.1, представляющий собой значительное обновление Claude Opus 4. Эта модель демонстрирует улучшения в:

  • Агентных задачах, реальном кодировании и рассуждениях.
  • Производительности кодирования, достигая 74.5% на бенчмарке SWE-bench Verified.
  • Глубоких исследовательских навыках и анализе данных, особенно в отслеживании деталей и агентурном поиске.
Claude Opus 4.1 benchmark

По отзывам, Claude Opus 4.1 заметно улучшает рефакторинг кода из нескольких файлов (GitHub) и точность исправления ошибок в больших кодовых базах без ненужных изменений (Rakuten Group). Windsurf отмечает улучшение на одну стандартную девиацию по сравнению с Opus 4 на своем бенчмарке для младших разработчиков, что аналогично скачку от Sonnet 3.7 к Sonnet 4.

Anthropic рекомендует всем пользователям перейти с Opus 4 на Opus 4.1, который уже доступен для платных пользователей Claude, в Claude Code, через API, а также на Amazon Bedrock и Google Cloud’s Vertex AI по той же цене, что и Opus 4. Claude Opus 4.1 является гибридной моделью рассуждения и использует различные методологии бенчмаркинга, включая использование инструментов и расширенное мышление для некоторых задач.

Источник

Genie 3 от Google DeepMind: Передовая Модель Генерации Миров в Реальном Времени

Google DeepMind представила Genie 3 – универсальную модель мира, способную генерировать беспрецедентное разнообразие интерактивных сред. Это их первая модель мира, позволяющая взаимодействие в реальном времени, при этом значительно улучшая последовательность и реализм по сравнению с Genie 2.

Ключевые возможности Genie 3 включают:

  • Генерацию динамических миров, в которых можно перемещаться в реальном времени со скоростью 24 кадра в секунду, сохраняя последовательность в течение нескольких минут при разрешении 720p. Модель может поддерживать последовательность среды до нескольких минут, с визуальной памятью, простирающейся до одной минуты назад.
  • Моделирование физических свойств мира, включая воду, освещение и сложные взаимодействия с окружающей средой.
  • Симуляцию природного мира, создавая яркие экосистемы с поведением животных и сложной растительностью.
  • Моделирование анимации и фантастики, позволяя создавать фантастические сценарии и выразительных анимированных персонажей.
  • Исследование локаций и исторических обстановок, выходя за рамки географических и временных границ.
  • События мира, управляемые подсказками, что позволяет изменять сгенерированный мир, например, условия погоды или вводить новые объекты и персонажей.

Genie 3 рассматривается как ключевой шаг на пути к ОИИ (Общему Искусственному Интеллекту), поскольку она позволяет обучать ИИ-агентов в неограниченном количестве богатых симуляционных сред. Она уже используется для исследования воплощенных агентов, таких как агент SIMA, для достижения сложных целей в сгенерированных мирах.

Несмотря на прорывы, у Genie 3 есть и ограничения, включая ограниченное пространство действий для агентов, сложности с моделированием взаимодействий между несколькими независимыми агентами, неточную симуляцию реальных географических локаций, проблемы с рендерингом текста и ограниченную продолжительность взаимодействия (несколько минут, а не часы). Google DeepMind подчеркивает глубокую приверженность ответственности при разработке, выпуская Genie 3 как ограниченный исследовательский превью для сбора отзывов и минимизации рисков

Источник

Заключение

Представленные релизы отражают три ключевых направления развития современного ИИ. OpenAI впервые открыла свои модели под Apache 2.0, предоставив разработчикам мощные инструменты для коммерческого использования без ограничений. GPT-OSS демонстрирует зрелость технологии – модели работают на потребительском оборудовании и показывают производительность, сопоставимую с закрытыми системами.

Anthropic сосредоточилась на практических улучшениях, доведя Claude Opus 4.1 до 74.5% на SWE-bench Verified. Это конкретный прогресс в решении реальных инженерных задач, где важна точность и надежность.

Google DeepMind выбрала принципиально иной путь с Genie 3, создав первую модель мира с интерактивностью в реальном времени. Несмотря на текущие ограничения, технология открывает новые возможности для обучения агентов и создания контента.

Общий тренд очевиден: переход от закрытых исследовательских проектов к готовым продуктам. Открытость GPT-OSS, практичность Claude Opus 4.1 и инновационность Genie 3 показывают, что индустрия движется к более доступным и специализированным решениям при сохранении высоких стандартов безопасности.

Share it

Если вам понравилась заметка - подписывайтесь на мой канал в телеграме https://t.me/renat_alimbekov


Интересные записи в этой рубрике: