Михаил Степнов и Лилия Мусина, Publicis Groupe Russia: любовь, социальные медиа и роботы

Социальные медиа — один из самых полезных источников информации для исследования современного потребителя. Как люди воспринимают бренд, в каких ситуациях используют продукт, какие тренды сегодня набирают обороты — мы можем послушать развернутые мнения в реальном времени практически на любую тему. Нужно только настроить систему мониторинга, и миллионы упоминаний становятся доступны для анализа.

Но как не утонуть в этом массиве слабоструктурированных данных и не упустить ценную информацию? Возможно ли ускорить работу по поиску инсайтов в огромном потоке сообщений и каким образом?

Об эффективных методах текстового анализа, распознавании объектов в видеоконтенте и о том, что случается, когда в мир аналитики соцмедиа врываются data scientists, рассказывают Лилия Мусина (Analytics & Insights Director Publicis Groupe Russia) и Михаил Степнов (Head of Advanced Analytics Publicis Groupe Russia).

Зачем мы это делаем

Чаще всего мы проводим социальный медиаанализ в связке с ML-алгоритмами для решения трех типов задач:

1) определение ситуаций потребления и аудиторных сегментов (которые дальше служат основой для коммуникационных и таргетированных решений);

2) проверка и детализация стратегических гипотез (например, действительно ли ЗОЖ приобретает более осознанный подход, какие тенденции выражены сильнее?);

3) и, пожалуй, самый животрепещущий вопрос: какой контент публиковать — какие элементы в тексте, картинке и даже в видео больше всего влияют на вовлеченность пользователя?

Раньше для этих целей медиааналитики вычитывали небольшую выборку сообщений и, как итог, выдавали условный набросок идей на заданную тему. Теперь с помощью машинного обучения мы получаем полноценный качественный и количественный анализ.

Beyond the data we go: как мы работаем с текстами из соцмедиа

Прежде всего хочется отметить, что нам «повезло» — мы разговариваем на русском языке. Он входит в четвертую категорию сложности изучения — в среднем не носителю языка нужно потратить около 1100 часов, чтобы научиться относительно свободно разговаривать на русском. Сложнее только языки с иероглифической знаковой системой.

Что же нужно делать, чтобы облегчить работу со сложным текстовым массивом?

Главное — не паниковать.
Убрать из массива цифры, имена, предлоги (при этом не исключать частицу «не»).
Привести все слова к исходным формам и исключить нерелевантный контент из массива данных (спам, рекламу, ненормативную лексику и пр.).

Михаил Степнов, Head of Advanced Analytics Publicis Groupe Russia:

На мой взгляд, удаление ненормативной лексики в такого рода анализе часто неоправданно, так как могут потеряться важные для заказчика инсайты. Как сказал классик нашего времени: «Мат есть главная жемчужина великого русского языка». Другой вопрос — публиковать результаты анализа в корректных формулировках, и с этим уже должен справляться человек.

Техники текстового и визуального анализа

1. Первый метод — кластеризация, т. е. разделение текстов на однородные, связанные между собой группы.

В этом методе есть очевидная проблема. Кластеры создают машины (это т. н. unsupervised learning), и по какому принципу они сформированы, по умолчанию неизвестно. Каждый раз это новая история, которая нуждается в интерпретации человеком.

2. Другой метод — расчет связей слов. Он показывает, с какой частотой и вероятностью одно слово употребляется в паре с другим.

Здесь тоже важно быть на страже здравого смысла — например, мы можем получить стопроцентную связь между словами «Путин» и «краб». Никакой политики: если во всем массиве комментариев слово «краб» упоминается один раз и встречается в предложении «Путин ездил на Камчатку и ел камчатского краба», то «крабу» больше не за что зацепиться.

3. Третья техника — это распознавание объектов на изображениях и видео. Нейросеть способна идентифицировать объекты в кадрах и проанализировать, какой набор элементов дает наибольшее влияние на целевой показатель (engagement rate, ad recall и др.).

Case study: реальные примеры

1. Для одного бренда необходимо было выявить ситуации, в которых люди испытывают стресс. Мы собрали все публичные сообщения по теме (это около 150 тыс. упоминаний) и применили к ним метод кластеризации. На выходе у нас получилось девять оцифрованных и приоритизированных источников стресса.

Прелесть метода в том, что:

а) машина за несколько минут обработала и сгруппировала огромный массив данных;

б) смогла показать неочевидные ситуации стресса — например, отказ от курения и проблемы лишнего веса.

Лилия Мусина, Analytics & Insights Director Publicis Groupe Russia:

Если бы аналитик выполнял поиск самостоятельно, он вряд ли бы назвал эти ситуации причинами стресса (особенно если сам с ними не сталкивался). Машина же не полагается на личный опыт и показывает абсолютно все, даже небольшие сегменты.

2. Второй кейс — проверка гипотезы о том, что ЗОЖ становится осознанней и системней, чем это было раньше. Мы собрали две базы упоминаний — за 2014 и 2019 годы — и отдельно по каждой рассчитали вероятность встречаемости фразы ЗОЖ с другими словами.

В 2014 году вместе со словами ЗОЖ были популярны такие сочетания, как «быстро похудеть», «модно похудеть», то есть быстродействующие и далеко не здоровые приемы. В высокой связке также находились слова «гастрит», «варикоз», «язва» — здоровый образ жизни больше ассоциировался с лечением болезней, чем с превентивными мерами. Из спортивной тематики было только одно слово — «фитнес», причем в очень небольшой связи (коэф. 0.54, колеблется от нуля до одного, и чем выше к единице, тем выше связь).

В 2019 году ситуация изменилась. Появились сочетания ЗОЖ с «правильное питание», «здоровое питание». Не «быстро» и «модно», а «правильно» и «здорово». Сильно поднялась спортивная тематика (коэф. 0.89) со словами «спорт», «фитнес», «спортзал». Добавились общие идеи: «красота», «мотивация», чего не было в первом периоде. Такой подход позволяет подтверждать или опровергать любые гипотезы и преподносить их не как мнение, а как факт, подтвержденный цифрами на основе большой базы данных.

3. И последний кейс с оценкой эффективности контента. У нас было большое количество рекламных роликов по всем рекламодателям телеком-категории и показатель, характеризующий их эффективность (в нашем случае — ad recall). Мы прогнали ролики через предобученную нейросеть, которая собирала все объекты на кадрах видео и связывала их с целевой переменной. Результат оказался неожиданным: наиболее значимо на узнаваемость рекламы в телеком-индустрии влияет цветовая гамма видео — чем больше ярких теплых цветов на экране, тем лучше.

Что в итоге

Связывать Data Science с маркетингом можно и нужно. Это путь, которым активно идем мы, Publicis Groupe Russia, и рекомендуем идти другим.

Все методы текстового анализа довольно просты, они описаны в открытых источниках и доступны всем для применения в работе. Важно знать, где и как использовать их наиболее эффективно.

Это история не про замену человека машинным обучением, а про то, как облегчить и ускорить исследовательскую работу, сделать ее более продвинутой. Потому что эффективность — не в отдельно взятых машинных инструментах и не в отдельной команде, а в синергии работы профессиональных и увлеченных своим делом людей и правильных методов машинного обучения.

Новости

Digital

Медиа

Креатив

Маркетинг

Бизнес

Общество

Спецпроекты

Школа Sostav

Лекторий

Мнение рынка

Интервью

Фоторепортаж

Шкала эффективности рекламы

SOSTAV чемпионов 2026

Bookchain

Выбор редакции

Рейтинг медиаагентств 2026

ТОП-30 крупнейших рекламодателей России 2026

Подкасты

Видео

Реклама на сайте

Контакты

Гайдлайны

Каталог компаний

Рейтинги

Бизнес-блоги

Правила ведения блогов

Блоги

Sostav в соцсетях