Qwen3.7: анализ бенчмарков SWE-bench и TAU2 и практическое значение

Тема: Бенчмарки моделей ИИ · Оценка кодинга и агентов

Кратко

Qwen3.7 показала сильные результаты на SWE-bench, превзойдя Claude Opus, и на TAU2 достигла ERP-уровня. Бенчмарки хорошо измеряют исправление багов, но слабо — поиск ошибок и работу с фреймворками. Модель рекомендуется тестировать на реальных задачах с учётом цены и скорости.

Главное

  • Qwen3.7 обошла Claude Opus на SWE-bench благодаря RL-обучению
  • Отсутствуют надёжные тесты на поиск багов и работу с библиотеками
  • TAU2 подтверждает способность решать сложные бизнес-задачи
  • Высокие цифры в бенчмарках необходимы, но недостаточны
  • При выборе модели важны цена, скорость и мультимодальность
  • Рекомендуется тестировать Qwen3.7 на собственной кодовой базе

Недавно вышли бенчмарки новой модели Qwen3.7, и многие просят их прокомментировать. Давайте разберёмся простым языком, что они показывают и насколько им можно доверять.

Кодинг и SWE-bench

Одно из самых интересных достижений — результат на SWE-bench . Qwen3.7 обошла даже Claude Opus.

Это вполне реально. У Qwen раньше уже были очень сильные результаты после обучения с подкреплением (RL) на исправлении багов. Сейчас даже модели среднего уровня довольно хорошо чинят уже найденные ошибки.

Но есть важный нюанс: Мы хорошо измеряем, как модель чинит баги, но почти не измеряем, как она их находит . Нет хорошего теста на то, насколько ИИ умеет писать и запускать тесты самостоятельно.

Также нет нормального бенчмарка, который проверял бы, насколько хорошо модель работает с разными фреймворками и библиотеками. В этом аспекте, например, Claude до сих пор остаётся очень сильным.

TAU2 и сложные задачи

Высокие результаты на тестах TAU2 тоже выглядят правдоподобно. По сути, уже полгода назад крупные модели после RL-обучения начали достигать уровня, который можно назвать «ERP-качеством» — они способны решать сложные бизнес-задачи.

Вопрос теперь не в том, может ли ИИ «думать» на уровне ERP-процессов, а в том, есть ли у вас агент , который может реально работать внутри вашей ERP-системы.

Зачем вообще нужны бенчмарки?

Высокие цифры в таблицах — это необходимо , но недостаточно .

Представьте GigaChat. Пока модель не проходит серьёзные независимые тесты хотя бы на среднем уровне, все разговоры про «Православный ИИ» остаются просто красивыми словами.

Без объективных бенчмарков мы имеем дело скорее с «макетом» модели, а не с проверенным инструментом.

На что реально способен новый Qwen

По текущим бенчмаркам можно уверенно сказать: Qwen3.7 уже может выступать в роли серьёзного кодера и агента в крупных проектах — при условии , что ему дают хорошие, чёткие спецификации.

Что ещё важно

Бенчмарки не рассказывают всю историю. При выборе модели нужно смотреть и на другие вещи:

Сам автор текста иногда использует Qwen именно для фронтенда благодаря его сильным мультимодальным возможностям.

Главный вывод

Современные топовые бенчмарки говорят, что Qwen3.7 стоит включить в шортлист  для тестирования. Это уже серьёзный кандидат.

Однако то, как модель будет вести себя именно на вашей кодовой базе и с вашим стилем написания задач, сильно зависит от конкретного проекта. Бенчмарки дают только общее направление, но не гарантию.

Поэтому лучший совет: не верьте blindly таблицам от маркетологов. Обязательно протестируйте модель сами на ваших реальных задачах. Таблицы говорят правду, но далеко не всю.

Фрагменты

Qwen3.7 обошла даже Claude Opus на SWE-bench. Это вполне реально благодаря предыдущему RL-обучению на исправлении багов.

Claude до сих пор остаётся очень сильным в работе с разными фреймворками и библиотеками.

ERP-качество — уровень, при котором модели способны решать сложные бизнес-задачи после RL-обучения.

Не верьте таблицам от маркетологов. Обязательно протестируйте модель сами на ваших реальных задачах.

Комментарии

  1. Высокие цифры в таблицах - это необходимо, но недостаточно, и именно поэтому я не верю в перенос результатов на реальные проекты без своих тестов

  2. Бенчмарки это не прям адекватный показатель, это правда, но это какой-то показатель

  3. QWEN очень умная модель...и не только умная но и оригинальная и радикально отличающаяся от других ИИ ЛЛМ...из 17 моделей ИИ ЛЛМ когда их попросили сгенерировать то как они себя видят QWEN единственная модель которая радикально и категорически (в отличии от всех остальных) отказалась отождествляться с каким либо гендером и изобразила себя вот так)))