Дарья Белякова, Weborama: как использовать нейросети для анализа текстового пространства

Ведущий аналитик Weborama Дарья Белякова рассказала Sostav об основных моделях, применяемых её компанией на протяжении последних шести лет для создания рекомендательных систем с целью подбора релевантных сегментов для таргетинга.

Первая модель. Word2vec

В связи с развитием интернета и ростом количества информации возникла необходимость её качественной обработки. На сегодняшний день аналитик не способен вручную проанализировать весь объём контента, который существует в веб-пространстве по его продукту. Поэтому анализ текстового пространства с помощью искусственного интеллекта —это одно из самых важных и основных направлений при обработке данных.

Всё началось с подхода Word2vec, который представлял слова в виде векторов, и близкие по смыслу слова имели схожее ориентирование. По данным Habr этот подход реализован во многих рекомендательных системах таких гигантов, как Airbnb, Alibaba (AliExpress) и Spotify.

С помощью данного подхода был реализован и ряд решений Weborama: BigFish, MoonFish и GoldenFish. Они помогают подбирать релевантные слова-рекомендации, которые находятся в одном контексте с ключевыми словами и могут быть интересны целевой аудитории.

Для корректного поиска URL с релевантным контекстом проводится несколько итераций:

токенизация — разбиение текста на отдельные единицы слов и фраз;
лемматизация — приведение слова к его словарному виду (по сути, лемма — это слово в именительном падеже единственного числа в случае с существительными и прилагательными или инфинитив, в случае с глаголом).

Разберём это на примере cookie-based решения. Мы вводим в интерфейсе ключевое слово, и система на основе векторных представлений выдаёт рекомендации. На скриншоте мы видим показатель Audience estimate. Он показывает максимальный объём тех cookie-идентификаторов, которые контактировали с рекомендованными системой словами в течение последних 30 дней.

Ключевые слова, рекомендации к лемме «лотерея», а также пример сегмента с оценкой его максимального объёма

По сравнению с таргетированием по социально-демографическим характеристикам, таргетирование, основанное на поведенческих сегментах, отыгрывает лучше. В пример можно привести интерес к покупке лотерейного билета. По социально-демографическим характеристикам под целевую аудиторию такого продукта можно отнести всех пользователей веб-пространства. Однако после применения поведенческого таргета аудитория значительно сузится.

Поведенческий таргетинг основывается на факте контакта веб-пользователя с текстами, содержащими леммы, связанные с покупкой лотерейного билета. К леммам в данном случае будут относиться запросы «лотерея», «лотерейный билет», «тираж лотереи» и другие. Согласно ранее опубликованному на Sostav исследованию, средний чек покупки на сегментах Weborama оказался вдвое выше, чем средний по кампании в целом. Однако минус любого подобного решения заключается в том, что несмотря на анализ всего контекста и наличие ключевых слов в нём, в сегмент могут попадать URL-s, которые нерелевантны запросу. Это увеличивало время на чистку URL, как автоматическим, так и ручным способом.

На скриншоте изображены URLs по запросу лемм «лотерея» и «билет», где второй URL-адрес является нерелевантным запросу

Вторая модель. Bert

В 2021−2022 годах Weborama проапгрейдила свое решение BigFish, используя модель Bert. Изначально продукт BigFish, предназначенный для анализа текстов, был основан на модели Word2Vec, что предполагало анализ слов и их близость в контексте. Bert также начинает с токенизации подаваемого на вход текста. Когда модель обрабатывает текст, каждое слово кодируется своим векторным представлением. Эмбеддинг включает информацию о самом слове, номере предложения, в котором оно находится, и его позиции в этом предложении. Мы обрабатываем входные данные параллельно, что означает, что не обязательно рассматривать термины поочерёдно. Однако информация о том, как слова расположены друг относительно друга в оригинальном предложении, сохраняется в векторном представлении каждого слова, включая его позицию в предложении. После апгрейда продукта в исследовании появилась возможность анализа тональности текста.

Тональность текстового корпуса

На графике представлены три цвета, где красным обозначены негативные предложения, серым — нейтральные, а зелёным — положительные. Основываясь на данном распределении, стало возможным также добавление показателя NPS (Net Promoter Score, или индекс потребительской лояльности).

Также стало возможно сегментировать исследованный текст с помощью Weborama Generic Taxonomy — то есть распределять контекст на URLs по базовым тематикам. Так, на картинке представлено, что наиболее популярные темы в исследованных текстах связаны с детьми и правильным питанием.

Сегментация содержащихся слов в исследуемых текстовых корпусах

Получение подобных результатов стало возможным благодаря тому, что в каждом слое кодировщика Bert применяется двустороннее внимание. Оно позволяет учитывать контекст с обеих сторон от рассматриваемого токена.

Третья модель. Large Language Model

Несмотря на существенное улучшение анализа текстов, проблема с наличием ключевых слов на страницах, не являющихся для нас релевантными, сохранялась. На скрине представлен кейс, когда нам необходимо найти статьи о художниках-любителях, но в данном случае система выдает нам страницы, где содержится информация не только о нашей аудитории, но и в целом о любителях искусства.

На скриншоте изображены URL-s по запросу лемм «Художник» и «Любитель»

В связи с этим, мы решили использовать ChatGPT. С помощью искусственного интеллекта создали несколько предложений по нашей целевой аудитории. Из них отобрали три предложения, наиболее подходящих для нашего исследования, и использовали их в качестве целевых.

Запрос к ChatGPT

Ответ от ChatGPT

На основе данных целевых предложений мы выделили наиболее похожие URL-s и определили их аффинитивность.

Рекомендательная система подобрала наиболее похожие URLs к выбранным нейросетью предложениям

В перспективе мы планируем использование LLM для сбора сегментов по запросу рекламодателей и будем передавать данные URL-s на сторону площадок для «открутки» рекламных кампаний.

Планы

Безусловно, на этом мы не останавливаемся. Планируем развивать новый рекомендательный инструмент на базе описанной выше Large Language Model. Уже сейчас нейросети дают возможность не только настроить тональность более точно, но и, благодаря постоянной обучаемости и совершенствованию GPT-технологий, уловить те лингвистические оттенки и связи, которые ранее не были доступны моделям Word2vec и Bert.

Конечно, нельзя не упомянуть про предстоящую отмену cookie-файлов, которая кардинально повлияет на рекламный рынок в целом. И тут применение решений на основе искусственного интеллекта также сыграет важную роль в обеспечении рынка рекламы инструментами таргетинга. Контекстуальный таргетинг, основанный на семантическом анализе данных, уже сейчас активно применяется рекламодателями, а его результативность во многом не уступает cookie-based инструментам. И мы уверены, что наступление cookieless-эры даст толчок в развитии инструментов, основанных на нейросетях.

Новости

Digital

Медиа

Креатив

Маркетинг

Бизнес

Общество

Спецпроекты

Школа Sostav

Лекторий

Интервью

Мнение рынка

Фоторепортаж

Шкала эффективности рекламы

SOSTAV чемпионов 2026

Bookchain

Выбор редакции

Рейтинг медиаагентств 2026

ТОП-30 крупнейших рекламодателей России 2026

Подкасты

Видео

Реклама на сайте

Контакты

Гайдлайны

Каталог компаний

Рейтинги

Бизнес-блоги

Правила ведения блогов

Блоги

Sostav в соцсетях

Дарья Белякова, Weborama: как использовать нейросети для анализа текстового пространства

Эксперт компании рассказала о моделях рекомендательных систем

Первая модель. Word2vec

Вторая модель. Bert

Третья модель. Large Language Model

Планы