MEDIA DIRECTION GROUP представила инструмент LLMeter для тестирования эффективности больших языковых моделей (LLM) в задачах маркетинга. Система оценивает, насколько различные нейросети справляются с практическими рабочими сценариями — от анализа данных до медиапланирования и проверки фактов. О новом инструменте Sostav рассказали в компании.
Разработчики отмечают, что рынок искусственного интеллекта (ИИ) развивается очень быстро, новые версии моделей появляются регулярно, а их возможности существенно различаются в зависимости от типа задачи. В этих условиях компаниям становится сложнее выбирать оптимальные ИИ-инструменты для конкретных бизнес-процессов.
LLMeter формирует более 150 тыс. запросов, основанных на реальных задачах маркетологов и рекламных агентств, и отправляет их в разные нейросети через API. Среди протестированных моделей — решения, лежащие в основе сервисов ChatGPT, Gemini и Perplexity, а также другие модели, включая семейство Claude. После обработки запросов система формирует рейтинг моделей по эффективности в конкретных типах задач.
Оценка качества ответов проводится по шести направлениям: отчетность и работа с KPI, анализ трендов и медиаметрик, медиапланирование, финансовая аналитика, задачи PR и SMM, а также компетентность в маркетинге и менеджменте. В результате каждая модель получает набор сильных и слабых сторон.
Первые тесты показали, что универсальной нейросети для всех задач не существует. Например, при задачах фактчекинга модель Claude Sonnet 4.5 показала заметно более высокий результат, чем Claude Haiku 4.5 — 84% против 28% соответственно. При этом наиболее сложным для большинства моделей оказался блок аналитики трендов: 11 из 12 протестированных нейросетей продемонстрировали низкие показатели.
Николай Муравьев, вице-президент Media Direction Group по развитию инновационных ИИ-решений:
Сейчас многие совершают одну и ту же ошибку: выбирают одну нейросеть и пытаются заставить ее делать всё — и креативы придумывать, и сложные медиасплиты считать. Это прямой путь к тому, чтобы наделать критических ошибок в бизнесе.
С помощью инструмента LLMeter Media Direction Group имеет возможность проводить и регулярно обновлять тестирование, которое позволяет применять исключительно релевантные нейросети на большом спектре рабочих задач.
Нам не важно, какая модель кажется «умнее» в теории. Нам важно, какая из них решит конкретную задачу клиента точнее и дешевле. Мы создали инструмент, который помогает понять, где алгоритму можно доверять на 100%, а где все еще требуется жесткий контроль со стороны человека.
В компании добавили, что полные результаты тестирования представят на ближайшем заседании комиссий по развитию ИИ АКАР и АРИР и разместят на ресурсах индустриальных ассоциаций. Кроме того, до публикации результаты могут быть предоставлены по запросу в Media Direction Group.
