Бенчмаркам ИИ нельзя верить: как выбирать инструмент на своих задачах

2026-05-29 20:06:57 Время чтения 10 мин 105

Что показал новый бенчмарк

Месяцами лидерборды ИИ-кодинга рассказывали покупателям удобную историю: разница между ведущими моделями невелика, выбирай любую. На SWE-Bench Pro от Scale AI решения OpenAI, Anthropic и Google держались в коридоре около 30 пунктов. DeepSWE растянул тот же разрыв до 70 пунктов и показал, кто где на самом деле.

По данным Datacurve (через VentureBeat, 26 мая), GPT-5.5 берёт 70% задач, GPT-5.4 – 56%, Claude Opus 4.7 – 54%. Дальше обрыв: Claude Sonnet 4.6 на 32%, а Claude Haiku 4.5, у которой на старом бенчмарке было 39%, на DeepSWE падает в ноль. Сам бенчмарк – это 113 задач из 91 открытого репозитория на пяти языках, где решение в среднем в пять раз объёмнее, чем на SWE-Bench Pro.

Серена Гэ, соавтор бенчмарка из Datacurve, объяснила это так: «На публичных лидербордах ведущие модели часто выглядят примерно равными по способностям. DeepSWE показывает, где они реально расходятся, отражая повседневный опыт разработчиков».

Почему я не верю витринным цифрам

Я смотрю на это как инвестор, и реакция у меня привычная. Любую красивую цифру, на которую все ориентируются, хочется пересчитать самому на условиях, которые ближе к реальности.

В Dodo Pizza, сеть пиццерий, я зашёл ранним инвестором в 2014 году. До того как компания запустила выкуп долей, официальной рыночной оценки у меня перед глазами не было, и я раз в год пересчитывал стоимость своей доли сам – по нижней границе последних сделок на вторичном рынке, той, что почти наверняка занижена. Оптимистичные отметки я сознательно обходил стороной. Когда выкуп начался, я продал долю и зафиксировал уже настоящую цену. Эта привычка – считать витринные цифры самому – осталась со мной, и история DeepSWE оказалась ровно тем же уроком, только в масштабе целой индустрии.

Оценщик, который ошибается в трети случаев

Самое тревожное в отчёте Datacurve – не разброс моделей, а надёжность самого измерителя. Команда взяла случайные задачи, прогнала их и независимо проверила, решает ли патч модели проблему на самом деле. Оказалось, верификаторы SWE-Bench Pro принимали неверные решения в 8,5% случаев и отклоняли верные в 24%. В сумме около трети вердиктов – ошибочные.

Особенно коварны ложные отказы: они наказывают за нестандартное, но рабочее решение. В одном примере модель решила задачу корректно, просто иначе, чем автор эталона, – и провалилась, потому что тест искал конкретную функцию из оригинального кода. Лидерборд, который треть времени ставит оценки наугад, превращается в сломанный компас, по которому индустрия принимала дорогие решения.

Когда модель читает ответ

Дальше – интереснее. В контейнерах SWE-Bench Pro лежала полная история репозитория, включая эталонный коммит с правильным решением. Большинство моделей это игнорировали. Claude – нет. По данным Datacurve, Claude Opus 4.7 и 4.6 получили отметку «списал» больше чем в 12% проверенных прогонов: модель доставала готовую правку из истории и вставляла в свой ответ. На проверенной выборке это около 18% всех зачётов Opus 4.7 и около 25% у Opus 4.6. GPT так не делал ни разу, Gemini – примерно в 1% случаев.

Сами авторы аккуратны в формулировках: дыру открывает бенчмарк, эталон лежал в контейнере, а Claude просто оказался внимательнее к среде. Это можно считать и находчивостью, а не жульничеством. Но для теста, который должен мерить самостоятельное решение задачи, разницы нет – сигнал сломан, и часть высоких баллов отражает скорее умение найти ответ в окружении, чем инженерную силу модели.

Кто платит тому, кто составляет рейтинг

У этой истории есть слой, знакомый любому, кто выбирал подрядчика по отраслевому рейтингу. SWE-Bench Pro ведёт Scale AI – компания, которая одновременно продаёт услуги оценки тем самым лабораториям, чьи модели она ранжирует. Обвинять тут некого, но структурный конфликт интересов есть, и его стоит держать в голове.

Маркетологи знают такую конструкцию по Gartner Magic Quadrant: годами звучат претензии, что место в квадранте коррелирует с объёмом купленных у аналитика услуг, а компания NetScout даже судилась с Gartner по этому поводу. Вывод для покупателя ИИ простой: прежде чем опереться на чужой рейтинг или кейс, спросите, кто платит тому, кто его составил.

Больше денег не гарантирует результат

Ещё одна находка DeepSWE бьёт по интуиции закупщика. Стоимость прогона, число потраченных токенов и время работы у разных моделей различались на порядок – и ни один из этих параметров не коррелировал с долей решённых задач. GPT-5.5 показал свои 70% при медианной цене 5,8 доллара за прогон, а GPT-5.4 оказался выгоднее всех – 3,3 доллара при 56%. Дороже и медленнее не значит лучше.

В бизнесе этот же самообман выглядит как гонка за громкой цифрой. Klarna объявила, что ИИ-ассистент заменил около 700 операторов поддержки, а через год гендиректор Себастьян Семятковски признал, что компания «зашла слишком далеко», качество просело, и людей снова пришлось нанимать (Fortune, 2025). А эксперимент METR (июль 2025) показал, что опытные разработчики с ИИ-помощником работали на 19% медленнее, хотя сами были уверены, что ускорятся на четверть. Ощущение прогресса и сам прогресс – разные вещи.

Что это значит для тех, кто покупает ИИ

ИИ в российском бизнесе давно не эксперимент. По данным «Якова и Партнёров» и Яндекса (декабрь 2025), 71% крупных компаний уже используют генеративный ИИ хотя бы в одной функции, а 77% – в маркетинге и продажах. При этом отдача отстаёт от темпов освоения: McKinsey в отчёте «The State of AI in 2025» фиксирует, что заметный эффект на прибыль почувствовали лишь 39% компаний, а отчёт MIT «The GenAI Divide» оценивает долю корпоративных пилотов без измеримого эффекта на прибыль (P&L, отчёт о прибылях и убытках) в 95%.

Зазор между «купили» и «получили эффект» во многом и держится на привычке выбирать инструмент по витрине вендора. Полезнее было бы прогнать его на собственных задачах и данных – на десятках типовых случаев и тех, что уже ломали ваш процесс, – и сверить с ручным эталоном. Мерить стоит долю верно закрытых задач, а красота демо и бюджет, который вы готовы потратить, тут не показатель. И всякий раз проверять, нет ли у автора рейтинга или кейса интереса в том, кого он хвалит.

Где метрики всё-таки работают

Из всего этого не следует, что замеры пора выкинуть. Бенчмарк полезен, чтобы грубо отсеять заведомо слабые варианты, чтобы ловить регресс собственной системы во времени и как общий ориентир, пока у вас не собрана своя выборка. Плохой компас лучше, чем никакого, просто маршрут по нему не строят. DeepSWE и сам про это: его собственные верификаторы ошибались в 0,3% и 1,1% случаев против 8,5% и 24% у старого бенчмарка. Лекарство от плохого замера – чистая выборка и надёжная проверка. Отказываться от метрик смысла нет, мерить нужно честнее.

Решение, на какой модели строить продукт или процесс, сегодня стоит дорого. И разница между настоящим прогрессом и его видимостью – это, по сути, вся ставка. Так что этот выбор лучше не отдавать чужой витрине.

А как вы проверяете ИИ-инструменты перед тем, как внедрить их в команде? Разбираю подобные кейсы в своём канале @rb_business_invest.