{"@context":"https://schema.org","@graph":[{"@id":"https://txtq.ru/@bigdeal/269#webpage","@type":"WebPage","name":"Qwen3.7: анализ бенчмарков SWE-bench и TAU2 и практическое значение","url":"https://txtq.ru/@bigdeal/269"},{"@id":"https://txtq.ru/@bigdeal/269#article","@type":"Article","author":{"@id":"https://txtq.ru/@bigdeal#person","@type":"Person","name":"Big Deal","url":"https://txtq.ru/@bigdeal"},"dateModified":"2026-05-22T20:22:56Z","datePublished":"2026-05-22T20:22:56Z","description":"Разбор свежих бенчмарков Qwen3.7: результаты на SWE-bench и TAU2, сравнение с Claude Opus, ограничения тестов на поиск багов и работу с фреймворками. Что означают цифры для реальных проектов и почему важно тестировать модель на своей кодовой базе.","headline":"Qwen3.7: анализ бенчмарков SWE-bench и TAU2 и практическое значение","image":["https://txtq.ru/uploads/2755c062ec6f5ce01e16a3b6.jpg"],"mainEntityOfPage":{"@id":"https://txtq.ru/@bigdeal/269#webpage"},"mentions":[{"@type":"Thing","name":"Qwen3.7"},{"@type":"Thing","name":"Claude Opus"},{"@type":"Thing","name":"SWE-bench"},{"@type":"Thing","name":"TAU2"},{"@type":"Thing","name":"GigaChat"}],"publisher":{"@type":"Organization","logo":{"@type":"ImageObject","url":"https://txtq.ru/favicon.png"},"name":"ТекстQ"},"url":"https://txtq.ru/@bigdeal/269"},{"@id":"https://txtq.ru/@bigdeal#person","@type":"Person","description":"Коротко это про меня.","name":"Big Deal","url":"https://txtq.ru/@bigdeal"},{"@type":"BreadcrumbList","itemListElement":[{"@type":"ListItem","item":"https://txtq.ru/","name":"ТекстQ","position":1},{"@type":"ListItem","item":"https://txtq.ru/@bigdeal/269","name":"Qwen3.7: анализ бенчмарков SWE-bench и TAU2 и практическое значение","position":2}]},{"@id":"https://txtq.ru/@bigdeal/269#discussion","@type":"DiscussionForumPosting","author":{"@id":"https://txtq.ru/@bigdeal#person","@type":"Person","name":"Big Deal","url":"https://txtq.ru/@bigdeal"},"comment":[{"@id":"https://txtq.ru/@bigdeal/269#comment-1037","@type":"Comment","author":{"@type":"Person","name":"Владислав Осипов","url":"https://txtq.ru/@vladislav-osipov"},"datePublished":"2026-05-22T20:47:08Z","parentItem":{"@id":"https://txtq.ru/@bigdeal/269#discussion"},"text":"Высокие цифры в таблицах - это необходимо, но недостаточно, и именно поэтому я не верю в перенос результатов на реальные проекты без своих тестов"},{"@id":"https://txtq.ru/@bigdeal/269#comment-1038","@type":"Comment","author":{"@type":"Person","name":"Big Deal","url":"https://txtq.ru/@bigdeal"},"datePublished":"2026-05-22T20:49:00Z","parentItem":{"@id":"https://txtq.ru/@bigdeal/269#comment-1037"},"text":"Бенчмарки это не прям адекватный показатель, это правда, но это какой-то показатель"},{"@id":"https://txtq.ru/@bigdeal/269#comment-2283","@type":"Comment","author":{"@type":"Person","name":"Игорь Бильский","url":"https://txtq.ru/@u112771028"},"datePublished":"2026-06-04T16:20:39Z","parentItem":{"@id":"https://txtq.ru/@bigdeal/269#discussion"},"text":"QWEN очень умная модель...и не только умная но и оригинальная и радикально отличающаяся от других ИИ ЛЛМ...из 17 моделей ИИ ЛЛМ когда их попросили сгенерировать то как они себя видят QWEN единственная модель которая радикально и категорически (в отличии от всех остальных) отказалась отождествляться с каким либо гендером и изобразила себя вот так)))"}],"commentCount":3,"datePublished":"2026-05-22T20:22:56Z","headline":"Qwen3.7: анализ бенчмарков SWE-bench и TAU2 и практическое значение","image":["https://txtq.ru/uploads/2755c062ec6f5ce01e16a3b6.jpg"],"isPartOf":{"@id":"https://txtq.ru/@bigdeal/269#webpage"},"mainEntityOfPage":{"@id":"https://txtq.ru/@bigdeal/269#webpage"},"text":"Недавно вышли бенчмарки новой модели Qwen3.7, и многие просят их прокомментировать. Давайте разберёмся простым языком, что они показывают и насколько им можно доверять. Кодинг и SWE-bench Одно из самых интересных достижений — результат на SWE-bench . Qwen3.7 обошла даже Claude Opus. Это вполне реально. У Qwen раньше уже были очень сильные результаты после обучения с подкреплением (RL) на исправлении багов. Сейчас даже модели среднего уровня довольно хорошо чинят уже найденные ошибки. Но есть важный нюанс: Мы хорошо измеряем, как модель чинит баги, но почти не измеряем, как она их находит . Нет хорошего теста на то, насколько ИИ умеет писать и запускать тесты самостоятельно. Также нет нормального бенчмарка, который проверял бы, насколько хорошо модель работает с разными фреймворками и библиотеками. В этом аспекте, например, Claude до сих пор остаётся очень сильным. TAU2 и сложные задачи Высокие результаты на тестах TAU2 тоже выглядят правдоподобно. По сути, уже полгода назад крупные модели после RL-обучения начали достигать уровня, который можно назвать «ERP-качеством» — они способны решать сложные бизнес-задачи. Вопрос теперь не в том, может ли ИИ «думать» на уровне ERP-процессов, а в том, есть ли у вас агент , который может реально работать внутри вашей ERP-системы. Зачем вообще нужны бенчмарки? Высокие цифры в таблицах — это необходимо , но недостаточно . Представьте GigaChat. Пока модель не проходит серьёзные независимые тесты хотя бы на среднем уровне, все разговоры про «Православный ИИ» остаются просто красивыми словами. Без объективных бенчмарков мы имеем дело скорее с «макетом» модели, а не с проверенным инструментом. На что реально способен новый Qwen По текущим бенчмаркам можно уверенно сказать: Qwen3.7 уже может выступать в роли серьёзного кодера и агента в крупных проектах — при условии , что ему дают хорошие, чёткие спецификации. Что ещё важно Бенчмарки не рассказывают всю историю. При выборе модели нужно смотреть и на другие вещи: Цена Скорость работы Мультимодальность (работа с изображениями, документами и т.д.) Сам автор текста иногда использует Qwen именно для фронтенда благодаря его сильным мультимодальным возможностям. Главный вывод Современные топовые бенчмарки говорят, что Qwen3.7 стоит включить в шортлист  для тестирования. Это уже серьёзный кандидат. Однако то, как модель будет вести себя именно на вашей кодовой базе и с вашим стилем написания задач, сильно зависит от конкретного проекта. Бенчмарки дают только общее направление, но не гарантию. Поэтому лучший совет: не верьте blindly таблицам от маркетологов. Обязательно протестируйте модель сами на ваших реальных задачах. Таблицы говорят правду, но далеко не всю.","url":"https://txtq.ru/@bigdeal/269"}]}
