Кодинг и SWE-bench
Одно из самых интересных достижений — результат на SWE-bench . Qwen3.7 обошла даже Claude Opus.
Это вполне реально. У Qwen раньше уже были очень сильные результаты после обучения с подкреплением (RL) на исправлении багов. Сейчас даже модели среднего уровня довольно хорошо чинят уже найденные ошибки.
Но есть важный нюанс: Мы хорошо измеряем, как модель чинит баги, но почти не измеряем, как она их находит . Нет хорошего теста на то, насколько ИИ умеет писать и запускать тесты самостоятельно.
Также нет нормального бенчмарка, который проверял бы, насколько хорошо модель работает с разными фреймворками и библиотеками. В этом аспекте, например, Claude до сих пор остаётся очень сильным.
TAU2 и сложные задачи
Высокие результаты на тестах TAU2 тоже выглядят правдоподобно. По сути, уже полгода назад крупные модели после RL-обучения начали достигать уровня, который можно назвать «ERP-качеством» — они способны решать сложные бизнес-задачи.
Вопрос теперь не в том, может ли ИИ «думать» на уровне ERP-процессов, а в том, есть ли у вас агент , который может реально работать внутри вашей ERP-системы.
Зачем вообще нужны бенчмарки?
Высокие цифры в таблицах — это необходимо , но недостаточно .
Представьте GigaChat. Пока модель не проходит серьёзные независимые тесты хотя бы на среднем уровне, все разговоры про «Православный ИИ» остаются просто красивыми словами.
Без объективных бенчмарков мы имеем дело скорее с «макетом» модели, а не с проверенным инструментом.
На что реально способен новый Qwen
По текущим бенчмаркам можно уверенно сказать: Qwen3.7 уже может выступать в роли серьёзного кодера и агента в крупных проектах — при условии , что ему дают хорошие, чёткие спецификации.
Что ещё важно
Бенчмарки не рассказывают всю историю. При выборе модели нужно смотреть и на другие вещи:
Сам автор текста иногда использует Qwen именно для фронтенда благодаря его сильным мультимодальным возможностям.
Главный вывод
Современные топовые бенчмарки говорят, что Qwen3.7 стоит включить в шортлист для тестирования. Это уже серьёзный кандидат.
Однако то, как модель будет вести себя именно на вашей кодовой базе и с вашим стилем написания задач, сильно зависит от конкретного проекта. Бенчмарки дают только общее направление, но не гарантию.
Поэтому лучший совет: не верьте blindly таблицам от маркетологов. Обязательно протестируйте модель сами на ваших реальных задачах. Таблицы говорят правду, но далеко не всю.
Комментарии
Высокие цифры в таблицах - это необходимо, но недостаточно, и именно поэтому я не верю в перенос результатов на реальные проекты без своих тестов
Бенчмарки это не прям адекватный показатель, это правда, но это какой-то показатель
QWEN очень умная модель...и не только умная но и оригинальная и радикально отличающаяся от других ИИ ЛЛМ...из 17 моделей ИИ ЛЛМ когда их попросили сгенерировать то как они себя видят QWEN единственная модель которая радикально и категорически (в отличии от всех остальных) отказалась отождествляться с каким либо гендером и изобразила себя вот так)))