{"article_id":"269","schema_version":1,"source_content_hash":"1f8338092f4041f8f4599d83cd83733f504d7bbe0c112af5c581894b708bc87f","computed_at":"2026-05-22T20:27:36Z","payload":{"topic":{"subtopic":"Оценка кодинга и агентов","canonical":"Бенчмарки моделей ИИ","confidence":0.85,"related_topics":["SWE-bench","RL для кода","AI-агенты"]},"entities":[{"role":"primary","type":"ai_tool","canonical_name":"Qwen3.7"},{"role":"secondary","type":"ai_tool","canonical_name":"Claude Opus"},{"role":"secondary","type":"technology","canonical_name":"SWE-bench"},{"role":"secondary","type":"technology","canonical_name":"TAU2"},{"role":"secondary","type":"ai_tool","canonical_name":"GigaChat"}],"passages":[{"kind":"answer","text":"Qwen3.7 обошла даже Claude Opus на SWE-bench. Это вполне реально благодаря предыдущему RL-обучению на исправлении багов."},{"kind":"comparison","text":"Claude до сих пор остаётся очень сильным в работе с разными фреймворками и библиотеками."},{"kind":"definition","text":"ERP-качество — уровень, при котором модели способны решать сложные бизнес-задачи после RL-обучения."},{"kind":"how_to","text":"Не верьте таблицам от маркетологов. Обязательно протестируйте модель сами на ваших реальных задачах."}],"seo_title":"Qwen3.7: анализ бенчмарков SWE-bench и TAU2 и практическое значение","ai_summary":"Qwen3.7 показала сильные результаты на SWE-bench, превзойдя Claude Opus, и на TAU2 достигла ERP-уровня. Бенчмарки хорошо измеряют исправление багов, но слабо — поиск ошибок и работу с фреймворками. Модель рекомендуется тестировать на реальных задачах с учётом цены и скорости.","key_takeaways":["Qwen3.7 обошла Claude Opus на SWE-bench благодаря RL-обучению","Отсутствуют надёжные тесты на поиск багов и работу с библиотеками","TAU2 подтверждает способность решать сложные бизнес-задачи","Высокие цифры в бенчмарках необходимы, но недостаточны","При выборе модели важны цена, скорость и мультимодальность","Рекомендуется тестировать Qwen3.7 на собственной кодовой базе"],"author_profile":{"bio":"Коротко это про меня.","sampled_articles":6},"seo_description":"Разбор свежих бенчмарков Qwen3.7: результаты на SWE-bench и TAU2, сравнение с Claude Opus, ограничения тестов на поиск багов и работу с фреймворками. Что означают цифры для реальных проектов и почему важно тестировать модель на своей кодовой базе.","overall_confidence":0.75}}
