Российские большие языковые модели (Large Language Model, LLM) оказались в десятки раз дороже иностранных. Под отечественными LLM чаще всего подразумеваются не модели, созданные с нуля, а дообученные версии открытых моделей мировых вендоров: LLaMA, Qwen, Mistral и других. Российские разработчики адаптируют их под локальные данные и разворачивают на собственных серверах. Об этом говорится в исследовании компании Nodul. Отчет есть в распоряжении Sostav.
Исследование охватывает девять типовых сценариев: переводчик (1 тыс. знаков), копирайтер (10 тыс. знаков), оператор поддержки (одно обращение), документооборот (один шаблонный документ), секретарь (пять минут разговора), менеджер по холодным продажам (SDR, обработка лида), супервайзер колл-центра (прослушивание звонков в течение часа), HR-менеджер (анализ одного резюме) и аналитик (сводный отчет по продажам из 10 разных документов).
Для каждого кейса Nodul рассчитала, сколько токенов (минимальная единица текста, которую обрабатывает нейросеть) нужно модели на ввод и вывод данных, и перевела эту нагрузку в рубли по действующим тарифам конкретных LLM. В обзор попали российские модели YandexGPT (Lite и Pro), GigaChat (Lite и Pro) и зарубежные DeepSeek, GPT-mini, GPT-5 и Claude Sonnet.
Практически во всех сценариях самой дорогой моделью оказалась GigaChat PRO, самой дешевой — DeepSeek. Разница между ними значительная:
- при копирайтинге стоимость отличается в 208 раз (154,5 руб. против 0,74 руб.);
- при работе оператора поддержки — в 204 раза (15,8 руб. против 0,08 руб.);
- в документообороте — в 160 раз (22,5 руб. против 0,14 руб.);
- при переводе текстов — в 161 раз (1,6 руб. против 0,009 руб.);
- при анализе одного резюме без учета парсинга источников — в 184 раза (2,7 руб. против 0,01 руб.);
- при обработке входящего лида в отдел продаж — в 160 раз (2,25 руб. против 0,01 руб.).
Главная причина высокой стоимости российских LLM — инфраструктура. Из-за санкций доступ к современным графическим процессорам GPU ограничен, оборудование закупается через посредников с наценкой. Использование зарубежных облачных сервисов ограничено из-за запрета передачи персональных данных за границу. Отечественным провайдерам приходится поддерживать собственные дата-центры. Сервер для обслуживания 1 тыс. пользователей стоит около 55 млн руб., не считая расходов на электроэнергию и обслуживание.
При наличии оборудования себестоимость зависит от загрузки. Чтобы токен стоил разумно, процессоры должны работать на 80−90%. При этом внутренний спрос на корпоративные LLM невысок, что делает генерацию текстов и запросов дороже.
На итоговой стоимости сказываются особенности тарификации. Российские провайдеры часто устанавливают одинаковую цену на входящие и исходящие токены, у зарубежных генерация ответа стоит дороже ввода. Для сценариев с длинными промптами и короткими ответами это означает кратный рост стоимости. В результате использование российских моделей обходится в десятки раз дороже, чем зарубежных.
Компании, планирующие внедрять агентов, должны сформулировать ИИ-стратегию. В документе нужно прописать, какие модели и на каких этапах автоматизации будут использованы, чтобы достичь оптимального соотношения качества, стоимости и безопасности. Почти все агенты состоят из связанных подпроцессов: одни из них выгоднее выполнять на базовых моделях, другие — на продвинутых. При генерации сложных текстов или сценариев лучше использовать мощные LLM, для просмотра контента и оценки его статуса — более простые.
