За 13 дней сыграно 47 матчей, каждый из которых я спрогнозировал не менее чем через 5 нейронок. Давайте посмотрим на промежуточные результаты, на вечер 24 июня.
DeepSeek —7 точных
ChatGPT — 6 точных
Claude — 4 точных
Qwen — 3 точных
Алиса — 2 точных
Manus — 1 точный
Gemini — 0 точных (10 сыгранных прогнозов за три дня).
ГигаЧат — 0 точных (выбыл после первого тура).
Проблема в том, что из 47 сыгранных матчей в ничью завершились 14, ровно 30%. Из этих 14 ничьих правильно предсказал только DeepSeek, и то три (Нидерланды–Япония, Бельгия–Египет, Чехия–ЮАР). Все остальные модели суммарно не поймали ни одной. Нейросети обучены на сигнале «у кого класс выше тот и победит», а ничья как исход почти не кодируется в обучающих паттернах.
Есть целый класс матчей, где все угадали победителя, но промахнулись по разнице в разы. Канада разгромила Катар со счётом 6:0, а все шесть моделей писали 2:0 или 2:1. Нидерланды разнесли Швецию 5:1 а ИИ прогнозировали 2:0 или 2:1. И так далее. Модели хорошо угадывают вектор, но плохо угадывают амплитуду.
Ряд результатов не предугадал никто из восьми моделей. При этом, на фоне всего вышеперечисленного есть и светлые пятна. Франция–Ирак 3:0, и четыре модели попали точно в счёт, матчи с очевидной расстановкой сил нейросети читают хорошо. Отдельно стоит еще раз отметить DeepSeek и его три пойманных ничьи, единственный случай, когда модель не просто угадала победителя, но и распознала паритет там, где его ждало меньше всего. Gemini вошёл в эксперимент с 20 июня, сделал прогнозы на 20 матчей, это фиаско братан.
Продолжаю наблюдения.