Sostav.ru

Михаил Степнов и Лилия Мусина, Publicis Groupe Russia: любовь, социальные медиа и роботы

О том, как облегчить и ускорить исследовательскую работу с помощью синергии профессионалов и правильных методов машинного обучения

17.02.2020 27 148

Социальные медиа — один из самых полезных источников информации для исследования современного потребителя. Как люди воспринимают бренд, в каких ситуациях используют продукт, какие тренды сегодня набирают обороты — мы можем послушать развернутые мнения в реальном времени практически на любую тему. Нужно только настроить систему мониторинга, и миллионы упоминаний становятся доступны для анализа.

Но как не утонуть в этом массиве слабоструктурированных данных и не упустить ценную информацию? Возможно ли ускорить работу по поиску инсайтов в огромном потоке сообщений и каким образом?

Об эффективных методах текстового анализа, распознавании объектов в видеоконтенте и о том, что случается, когда в мир аналитики соцмедиа врываются data scientists, рассказывают Лилия Мусина (Analytics & Insights Director Publicis Groupe Russia) и Михаил Степнов (Head of Advanced Analytics Publicis Groupe Russia).

Зачем мы это делаем

Чаще всего мы проводим социальный медиаанализ в связке с ML-алгоритмами для решения трех типов задач:

1) определение ситуаций потребления и аудиторных сегментов (которые дальше служат основой для коммуникационных и таргетированных решений);

2) проверка и детализация стратегических гипотез (например, действительно ли ЗОЖ приобретает более осознанный подход, какие тенденции выражены сильнее?);

3) и, пожалуй, самый животрепещущий вопрос: какой контент публиковать — какие элементы в тексте, картинке и даже в видео больше всего влияют на вовлеченность пользователя?

Раньше для этих целей медиааналитики вычитывали небольшую выборку сообщений и, как итог, выдавали условный набросок идей на заданную тему. Теперь с помощью машинного обучения мы получаем полноценный качественный и количественный анализ.

Beyond the data we go: как мы работаем с текстами из соцмедиа

Прежде всего хочется отметить, что нам «повезло» — мы разговариваем на русском языке. Он входит в четвертую категорию сложности изучения — в среднем не носителю языка нужно потратить около 1100 часов, чтобы научиться относительно свободно разговаривать на русском. Сложнее только языки с иероглифической знаковой системой.

Что же нужно делать, чтобы облегчить работу со сложным текстовым массивом?

  • Главное — не паниковать.
  • Убрать из массива цифры, имена, предлоги (при этом не исключать частицу «не»).
  • Привести все слова к исходным формам и исключить нерелевантный контент из массива данных (спам, рекламу, ненормативную лексику и пр.).

Михаил Степнов, Head of Advanced Analytics Publicis Groupe Russia:

На мой взгляд, удаление ненормативной лексики в такого рода анализе часто неоправданно, так как могут потеряться важные для заказчика инсайты. Как сказал классик нашего времени: «Мат есть главная жемчужина великого русского языка». Другой вопрос — публиковать результаты анализа в корректных формулировках, и с этим уже должен справляться человек.

Техники текстового и визуального анализа

1. Первый метод — кластеризация, т. е. разделение текстов на однородные, связанные между собой группы.

В этом методе есть очевидная проблема. Кластеры создают машины (это т. н. unsupervised learning), и по какому принципу они сформированы, по умолчанию неизвестно. Каждый раз это новая история, которая нуждается в интерпретации человеком.

2. Другой метод — расчет связей слов. Он показывает, с какой частотой и вероятностью одно слово употребляется в паре с другим.

Здесь тоже важно быть на страже здравого смысла — например, мы можем получить стопроцентную связь между словами «Путин» и «краб». Никакой политики: если во всем массиве комментариев слово «краб» упоминается один раз и встречается в предложении «Путин ездил на Камчатку и ел камчатского краба», то «крабу» больше не за что зацепиться.

3. Третья техника — это распознавание объектов на изображениях и видео. Нейросеть способна идентифицировать объекты в кадрах и проанализировать, какой набор элементов дает наибольшее влияние на целевой показатель (engagement rate, ad recall и др.).

Case study: реальные примеры

1. Для одного бренда необходимо было выявить ситуации, в которых люди испытывают стресс. Мы собрали все публичные сообщения по теме (это около 150 тыс. упоминаний) и применили к ним метод кластеризации. На выходе у нас получилось девять оцифрованных и приоритизированных источников стресса.

Прелесть метода в том, что:

а) машина за несколько минут обработала и сгруппировала огромный массив данных;

б) смогла показать неочевидные ситуации стресса — например, отказ от курения и проблемы лишнего веса.

Лилия Мусина, Analytics & Insights Director Publicis Groupe Russia:

Если бы аналитик выполнял поиск самостоятельно, он вряд ли бы назвал эти ситуации причинами стресса (особенно если сам с ними не сталкивался). Машина же не полагается на личный опыт и показывает абсолютно все, даже небольшие сегменты.

2. Второй кейс — проверка гипотезы о том, что ЗОЖ становится осознанней и системней, чем это было раньше. Мы собрали две базы упоминаний — за 2014 и 2019 годы — и отдельно по каждой рассчитали вероятность встречаемости фразы ЗОЖ с другими словами.

В 2014 году вместе со словами ЗОЖ были популярны такие сочетания, как «быстро похудеть», «модно похудеть», то есть быстродействующие и далеко не здоровые приемы. В высокой связке также находились слова «гастрит», «варикоз», «язва» — здоровый образ жизни больше ассоциировался с лечением болезней, чем с превентивными мерами. Из спортивной тематики было только одно слово — «фитнес», причем в очень небольшой связи (коэф. 0.54, колеблется от нуля до одного, и чем выше к единице, тем выше связь).

В 2019 году ситуация изменилась. Появились сочетания ЗОЖ с «правильное питание», «здоровое питание». Не «быстро» и «модно», а «правильно» и «здорово». Сильно поднялась спортивная тематика (коэф. 0.89) со словами «спорт», «фитнес», «спортзал». Добавились общие идеи: «красота», «мотивация», чего не было в первом периоде. Такой подход позволяет подтверждать или опровергать любые гипотезы и преподносить их не как мнение, а как факт, подтвержденный цифрами на основе большой базы данных.

3. И последний кейс с оценкой эффективности контента. У нас было большое количество рекламных роликов по всем рекламодателям телеком-категории и показатель, характеризующий их эффективность (в нашем случае — ad recall). Мы прогнали ролики через предобученную нейросеть, которая собирала все объекты на кадрах видео и связывала их с целевой переменной. Результат оказался неожиданным: наиболее значимо на узнаваемость рекламы в телеком-индустрии влияет цветовая гамма видео — чем больше ярких теплых цветов на экране, тем лучше.

Что в итоге

Связывать Data Science с маркетингом можно и нужно. Это путь, которым активно идем мы, Publicis Groupe Russia, и рекомендуем идти другим.

Все методы текстового анализа довольно просты, они описаны в открытых источниках и доступны всем для применения в работе. Важно знать, где и как использовать их наиболее эффективно.

Это история не про замену человека машинным обучением, а про то, как облегчить и ускорить исследовательскую работу, сделать ее более продвинутой. Потому что эффективность — не в отдельно взятых машинных инструментах и не в отдельной команде, а в синергии работы профессиональных и увлеченных своим делом людей и правильных методов машинного обучения.

Ваш браузер устарел
На сайте Sostav.ru используются технологии, которые не доступны в вашем браузере, в связи с чем страница может отображаться некорректно.
Чтобы страница отображалась корректно, обновите ваш браузер.
Ваш браузер использует блокировщик рекламы.
Он мешает корректной работе сайта. Добавьте сайт www.sostav.ru в белый список.