Почему TTS ограничивает конверсию голосовых роботов — и что с этим можно сделать

2026-06-05 06:19:51 Время чтения 6 мин 122

Голосовая автоматизация прошла путь от жёстких IVR-деревьев до LLM-роботов, способных вести контекстный диалог. Казалось бы, проблема закрыта. Но в ряде задач, например дорогом лидгене или реактивации спящей базы, конверсия с ИИ-роботами не растёт — и причина не в логике сценария.

Проблема не в интеллекте, а в голосе

Когда абонент слышит синтезированную речь, он переключается в режим «разговор с машиной». Это решение принимается за первые секунды — задолго до того, как робот успевает отработать предложение. Даже самые дорогие модели генерации речи оставляют артефакты интонирования, которые некоторые абоненты считывают мгновенно.

Два лагеря и их компромиссы

Исторически рынок делился на два подхода.

Владислав Можаев
Руководитель направления голосовых роботов сервиса «Скорозвон»
«Развитие роботизированного обзвона долго сводилось к компромиссам. Полностью ИИ-роботы гибки, но их качество ограничивается TTS-синтезом: это дорого, лучшие движки работают на зарубежных серверах, а абоненты нередко даже при самых качественных решениях распознают искусственность речи. Сценарным же роботам, при всей естественности дикторского голоса, не хватает адаптивности в живом диалоге».

Разница есть и в экономике. Сценарные роботы дают минимальную стоимость минуты: здесь нет затрат на LLM-токены и GPU-инференс для синтеза. А вот для ИИ-роботов каждую реплику им нужно синтезировать в реальном времени, что влечёт расходы на токены и TTS-синтез.

Гибридные модели — попытка совместить лучшее из обоих подходов. Они ведут клиента по скрипту, а при сложных возражениях подключают LLM. Но именно в этих точках, где нужна максимальная убедительность, гибриды переключаются на синтез и часто теряют доверие абонента.

Как заставить робота оркестрировать аудиобиблиотекой через LLM

Один из возможных ответов на это противоречие — разделить управление диалогом и его озвучку. Логику маршрутизации отдать LLM, а вместо синтеза речи использовать заранее записанные дикторские реплики.

Такая архитектура работает следующим образом: робот получает реплику абонента, NLU определяет смысловую нагрузку, LLM по промпту выбирает подходящий ответ из аудиобиблиотеки и воспроизводит соответствующий файл. Речь не синтезируется в реальном времени, а только воспроизводится.

Аудиобиблиотека формируется из реальных диалогов компании: успешных, с возражениями, с нестандартными вопросами. Промпт-движок выделяет наиболее частотные и эффективные реплики, на их основе строится структура сценария, которую затем записывает профессиональный диктор. Или — что особенно актуально для B2B с постоянной аудиторией — голос реального сотрудника компании, которому клиенты уже доверяют.

Результат: гибкость диалога уровня ИИ-робота при качестве голоса сценарного решения.

Что это даёт в цифрах

По данным команды «Скорозвона», которая реализовала подобную архитектуру, в задачах исходящего лидгена на холодной базе такой подход даёт прирост конверсии до ×1,4 по сравнению со сценарными роботами.

Дополнительный операционный эффект — задержки в ответах ниже, чем при синтезе, поскольку система воспроизводит готовый файл, а не генерирует аудио на лету.

Комплаенс как отдельный аргумент

Здесь есть и регуляторное измерение. Лучшие TTS-движки — ElevenLabs, Google AI Studio и аналоги — работают через зарубежную инфраструктуру. Для банков, страховых компаний, коллекторских агентств и государственных структур это фактический стоп-фактор: передача данных о звонках на зарубежные серверы создаёт регуляторные риски.

Архитектура с локальными аудиофайлами решает эту проблему, поскольку в момент звонка никаких обращений к внешним API нет.

Где границы этого подхода

Честный разбор требует обозначить ограничения. Такая схема требует подготовительной работы: нужен датасет реальных диалогов (от 50 разнообразных записей), время на анализ и запись аудиобиблиотеки. Сборка занимает от одного до трёх дней при наличии материала, но без него не работает.

Подход не универсален. Если задача — массовый прозвон с минимальным бюджетом и предсказуемым диалогом, сценарный робот без LLM-оркестрации будет дешевле и проще. Если же чувствительность аудитории к голосу невысока и конверсия не зависит от «человечности» речи — стандартный ИИ-робот даст ту же гибкость при более простом запуске.

Архитектура LLM + аудиобиблиотека оправдывает себя в конкретном профиле задач: когда диалог непредсказуем, аудитория чувствительна к качеству коммуникации, а конверсия уже упирается в потолок из-за роботизированного голоса.

А как вы оцениваете влияние качества голоса на конверсию в ваших кампаниях — тестировали ли A/B между дикторской записью и TTS в одном сценарии?