Ну что, продолжаем эксперимент имени осьминога Пауля в эпоху ИИ

2026-06-25 14:29:27 Время чтения 3 мин 29

За 13 дней сыграно 47 матчей, каждый из которых я спрогнозировал не менее чем через 5 нейронок. Давайте посмотрим на промежуточные результаты, на вечер 24 июня.

DeepSeek —7 точных

ChatGPT — 6 точных

Claude — 4 точных

Qwen — 3 точных

Алиса — 2 точных

Manus — 1 точный

Gemini — 0 точных (10 сыгранных прогнозов за три дня).

ГигаЧат — 0 точных (выбыл после первого тура).

Проблема в том, что из 47 сыгранных матчей в ничью завершились 14, ровно 30%. Из этих 14 ничьих правильно предсказал только DeepSeek, и то три (Нидерланды–Япония, Бельгия–Египет, Чехия–ЮАР). Все остальные модели суммарно не поймали ни одной. Нейросети обучены на сигнале «у кого класс выше тот и победит», а ничья как исход почти не кодируется в обучающих паттернах.

Есть целый класс матчей, где все угадали победителя, но промахнулись по разнице в разы. Канада разгромила Катар со счётом 6:0, а все шесть моделей писали 2:0 или 2:1. Нидерланды разнесли Швецию 5:1 а ИИ прогнозировали 2:0 или 2:1. И так далее. Модели хорошо угадывают вектор, но плохо угадывают амплитуду.

Ряд результатов не предугадал никто из восьми моделей. При этом, на фоне всего вышеперечисленного есть и светлые пятна. Франция–Ирак 3:0, и четыре модели попали точно в счёт, матчи с очевидной расстановкой сил нейросети читают хорошо. Отдельно стоит еще раз отметить DeepSeek и его три пойманных ничьи, единственный случай, когда модель не просто угадала победителя, но и распознала паритет там, где его ждало меньше всего. Gemini вошёл в эксперимент с 20 июня, сделал прогнозы на 20 матчей, это фиаско братан.

Продолжаю наблюдения.