Месяцами лидерборды ИИ-кодинга рассказывали покупателям удобную историю: разница между ведущими моделями невелика, выбирай любую. На SWE-Bench Pro от Scale AI решения OpenAI, Anthropic и Google держались в коридоре около 30 пунктов. DeepSWE растянул тот же разрыв до 70 пунктов и показал, кто где на самом деле.
По данным Datacurve (через VentureBeat, 26 мая), GPT-5.5 берёт 70% задач, GPT-5.4 – 56%, Claude Opus 4.7 – 54%. Дальше обрыв: Claude Sonnet 4.6 на 32%, а Claude Haiku 4.5, у которой на старом бенчмарке было 39%, на DeepSWE падает в ноль. Сам бенчмарк – это 113 задач из 91 открытого репозитория на пяти языках, где решение в среднем в пять раз объёмнее, чем на SWE-Bench Pro.
Серена Гэ, соавтор бенчмарка из Datacurve, объяснила это так: «На публичных лидербордах ведущие модели часто выглядят примерно равными по способностям. DeepSWE показывает, где они реально расходятся, отражая повседневный опыт разработчиков».
Я смотрю на это как инвестор, и реакция у меня привычная. Любую красивую цифру, на которую все ориентируются, хочется пересчитать самому на условиях, которые ближе к реальности.
В Dodo Pizza, сеть пиццерий, я зашёл ранним инвестором в 2014 году. До того как компания запустила выкуп долей, официальной рыночной оценки у меня перед глазами не было, и я раз в год пересчитывал стоимость своей доли сам – по нижней границе последних сделок на вторичном рынке, той, что почти наверняка занижена. Оптимистичные отметки я сознательно обходил стороной. Когда выкуп начался, я продал долю и зафиксировал уже настоящую цену. Эта привычка – считать витринные цифры самому – осталась со мной, и история DeepSWE оказалась ровно тем же уроком, только в масштабе целой индустрии.
Самое тревожное в отчёте Datacurve – не разброс моделей, а надёжность самого измерителя. Команда взяла случайные задачи, прогнала их и независимо проверила, решает ли патч модели проблему на самом деле. Оказалось, верификаторы SWE-Bench Pro принимали неверные решения в 8,5% случаев и отклоняли верные в 24%. В сумме около трети вердиктов – ошибочные.
Особенно коварны ложные отказы: они наказывают за нестандартное, но рабочее решение. В одном примере модель решила задачу корректно, просто иначе, чем автор эталона, – и провалилась, потому что тест искал конкретную функцию из оригинального кода. Лидерборд, который треть времени ставит оценки наугад, превращается в сломанный компас, по которому индустрия принимала дорогие решения.
Дальше – интереснее. В контейнерах SWE-Bench Pro лежала полная история репозитория, включая эталонный коммит с правильным решением. Большинство моделей это игнорировали. Claude – нет. По данным Datacurve, Claude Opus 4.7 и 4.6 получили отметку «списал» больше чем в 12% проверенных прогонов: модель доставала готовую правку из истории и вставляла в свой ответ. На проверенной выборке это около 18% всех зачётов Opus 4.7 и около 25% у Opus 4.6. GPT так не делал ни разу, Gemini – примерно в 1% случаев.
Сами авторы аккуратны в формулировках: дыру открывает бенчмарк, эталон лежал в контейнере, а Claude просто оказался внимательнее к среде. Это можно считать и находчивостью, а не жульничеством. Но для теста, который должен мерить самостоятельное решение задачи, разницы нет – сигнал сломан, и часть высоких баллов отражает скорее умение найти ответ в окружении, чем инженерную силу модели.
У этой истории есть слой, знакомый любому, кто выбирал подрядчика по отраслевому рейтингу. SWE-Bench Pro ведёт Scale AI – компания, которая одновременно продаёт услуги оценки тем самым лабораториям, чьи модели она ранжирует. Обвинять тут некого, но структурный конфликт интересов есть, и его стоит держать в голове.
Маркетологи знают такую конструкцию по Gartner Magic Quadrant: годами звучат претензии, что место в квадранте коррелирует с объёмом купленных у аналитика услуг, а компания NetScout даже судилась с Gartner по этому поводу. Вывод для покупателя ИИ простой: прежде чем опереться на чужой рейтинг или кейс, спросите, кто платит тому, кто его составил.
Ещё одна находка DeepSWE бьёт по интуиции закупщика. Стоимость прогона, число потраченных токенов и время работы у разных моделей различались на порядок – и ни один из этих параметров не коррелировал с долей решённых задач. GPT-5.5 показал свои 70% при медианной цене 5,8 доллара за прогон, а GPT-5.4 оказался выгоднее всех – 3,3 доллара при 56%. Дороже и медленнее не значит лучше.
В бизнесе этот же самообман выглядит как гонка за громкой цифрой. Klarna объявила, что ИИ-ассистент заменил около 700 операторов поддержки, а через год гендиректор Себастьян Семятковски признал, что компания «зашла слишком далеко», качество просело, и людей снова пришлось нанимать (Fortune, 2025). А эксперимент METR (июль 2025) показал, что опытные разработчики с ИИ-помощником работали на 19% медленнее, хотя сами были уверены, что ускорятся на четверть. Ощущение прогресса и сам прогресс – разные вещи.
ИИ в российском бизнесе давно не эксперимент. По данным «Якова и Партнёров» и Яндекса (декабрь 2025), 71% крупных компаний уже используют генеративный ИИ хотя бы в одной функции, а 77% – в маркетинге и продажах. При этом отдача отстаёт от темпов освоения: McKinsey в отчёте «The State of AI in 2025» фиксирует, что заметный эффект на прибыль почувствовали лишь 39% компаний, а отчёт MIT «The GenAI Divide» оценивает долю корпоративных пилотов без измеримого эффекта на прибыль (P&L, отчёт о прибылях и убытках) в 95%.
Зазор между «купили» и «получили эффект» во многом и держится на привычке выбирать инструмент по витрине вендора. Полезнее было бы прогнать его на собственных задачах и данных – на десятках типовых случаев и тех, что уже ломали ваш процесс, – и сверить с ручным эталоном. Мерить стоит долю верно закрытых задач, а красота демо и бюджет, который вы готовы потратить, тут не показатель. И всякий раз проверять, нет ли у автора рейтинга или кейса интереса в том, кого он хвалит.
Из всего этого не следует, что замеры пора выкинуть. Бенчмарк полезен, чтобы грубо отсеять заведомо слабые варианты, чтобы ловить регресс собственной системы во времени и как общий ориентир, пока у вас не собрана своя выборка. Плохой компас лучше, чем никакого, просто маршрут по нему не строят. DeepSWE и сам про это: его собственные верификаторы ошибались в 0,3% и 1,1% случаев против 8,5% и 24% у старого бенчмарка. Лекарство от плохого замера – чистая выборка и надёжная проверка. Отказываться от метрик смысла нет, мерить нужно честнее.
Решение, на какой модели строить продукт или процесс, сегодня стоит дорого. И разница между настоящим прогрессом и его видимостью – это, по сути, вся ставка. Так что этот выбор лучше не отдавать чужой витрине.
А как вы проверяете ИИ-инструменты перед тем, как внедрить их в команде? Разбираю подобные кейсы в своём канале @rb_business_invest.