ИИ-генераторы становятся проще, но профессионалы от этого не выигрывают. Владимир Лутаенко, директор по ИИ (CAIO) Narrators (входит в E-Promo Group) рассказывает в РБК Трендах, как все же встроить инструмент в коммерческий продакшен.
В 2026 году экономика ИИ-видеогенерации убыточна для большинства игроков. Реальная стоимость одного сгенерированного ролика значительно выше, чем платит пользователь. Компания Runway, наиболее прозрачная в финансовых вопросах, в 2024 году заработала около $44 млн выручки при убытке по EBITDA в $155 млн — расходы на облачную инфраструктуру и обучение моделей кратно превысили доходы.
Китайские платформы выигрывают по цене по простой причине. Kuaishou, который стоит за Kling 3.0, уже давно располагает огромными серверными мощностями, которые нужны для TikTok и других сервисов. Видеогенерацию просто запустили на той же инфраструктуре.
Западным компаниям все это приходится строить с нуля, и именно поэтому их цены значительно выше. Когда Sora 2, Veo 3.1, Kling 3.0, Seedance 2.0 и десятки других игроков запускают генераторы видео с максимально простым интерфейсом — это не вопрос доступности, а вопрос скорости набора пользовательской базы.
Рынок вертикального пользовательского контента, вроде «VK Клипы», TikTok, Reels или YouTube Shorts, несопоставимо больше рынка коммерческого производства, и компании это понимают. Обычный пользователь генерирует много и быстро, не требует точности и спокойно относится к ошибкам модели. Профессиональному продакшену нужен контроль над каждой деталью: движением камеры, поведением персонажа, освещением. Кроме того, каждый ролик обычного пользователя — это данные для обучения следующих версий моделей. Поэтому сейчас компании делают ставку на массовую аудиторию, а профессиональный продакшен остается для них аудиторией будущего.
Пользователь, который снимает ролик с котом для социальных сетей, публикует то, что получилось. Продакшен-команда, которая делает рекламный ролик для федерального бренда, согласовывает каждый кадр. Это разные задачи, и инструменты для них — тоже разные.
ИИ-генерация сегодня стабильно закрывает задачи, где результат оценивается по принципу «работает/не работает»: вирусный контент, карточки товаров на маркетплейсах, визуализация концепций. Там, где результат оценивается стандартами бренда, возникают системные проблемы.
Есть и правовые нюансы. Если частный пользователь может свободно генерировать узнаваемых персонажей, это считается свободным творчеством. А производственная компания несет юридическую ответственность за каждый кадр.
ИИ-модель не знает ваш бренд. Она знает, как выглядит информация в интернете на момент завершения обучения, и воспроизводит усредненный результат из этих данных.
Попросите модель сгенерировать баннер в фирменном стиле, и она создаст то, что статистически похоже на хороший баннер, но не ваш баннер. Добиться воспроизведения фирменного цвета, типографики или характерного визуального языка от генерации к генерации — задача со звездочкой даже для опытного креатора.
С продуктовым контентом ситуация аналогичная. Модели с высокой вероятностью добавят несуществующий разъем на устройстве, изменят расположение кнопок или текстуру поверхности. Для маркетплейса это приемлемо, покупатель получает общее впечатление от товара. Для профессиональной рекламы — нет.
Концепт-дизайн, мудборды, визуализация идей для клиента — задачи, где ИИ работает быстро и достаточно точно. Арт-директор может сформировать визуальное направление проекта за часы, а не дни, как раньше, и предметно обсуждать его с командой до начала съемок.
В самом производстве искусственный интеллект закрывает конкретные узкие задачи, а не весь процесс:
Заметный сдвиг происходит в VFX (visual effects, «визуальные эффекты») и композитинге. Задачи, которые еще несколько лет назад требовали высокой квалификации, сегодня решаются за минуты. Реалистичная анимация животного в сцене, которая прежде стоила от $10 тыс. и занимала недели работы, сегодня обходится в $20 и несколько минут генерации.
Признак того, что процесс генерации выстроен правильно, — каждая следующая итерация точнее воспроизводит исходный замысел. Количество генераций — не показатель эффективности. На выходе может получиться 20–30 роликов, из которых один дает нужную заявочную сцену, другой — правильное движение персонажа, третий — точную эмоцию. Финальный монтаж собирается из лучших фрагментов.
Для построения промптов имеет смысл использовать языковые модели: Claude, ChatGPT, Gemini. Они точнее учитывают параметры конкретной видеомодели, особенно если в начале диалога передать им официальный гайд по работе с ней.
Еще один практический принцип — упрощать действия в кадре. Сложная последовательность событий увеличивает вероятность артефактов. Например, один запрос для сцены, в которой женщина должна встать с дивана, взять кофе, посмотреть в камеру и улыбнуться, даст менее качественный результат, чем четыре отдельных эпизода. Но бесконечно дробить сцены тоже не выход — монтаж теряет ритм. Поэтому нужно искать баланс, и во многом он определяется бюджетом.
ИИ-видеогенерация сегодня — это не полноценная замена продакшену, а новый инструмент с четкими границами применения. И чем раньше команда начинает разбираться в том, где эти инструменты работают, а где нет, тем увереннее она будет чувствовать себя в будущем, когда возможности моделей вырастут еще в несколько раз.