Голосовая автоматизация прошла путь от жёстких IVR-деревьев до LLM-роботов, способных вести контекстный диалог. Казалось бы, проблема закрыта. Но в ряде задач, например дорогом лидгене или реактивации спящей базы, конверсия с ИИ-роботами не растёт — и причина не в логике сценария.
Когда абонент слышит синтезированную речь, он переключается в режим «разговор с машиной». Это решение принимается за первые секунды — задолго до того, как робот успевает отработать предложение. Даже самые дорогие модели генерации речи оставляют артефакты интонирования, которые некоторые абоненты считывают мгновенно.
Исторически рынок делился на два подхода.
«Развитие роботизированного обзвона долго сводилось к компромиссам. Полностью ИИ-роботы гибки, но их качество ограничивается TTS-синтезом: это дорого, лучшие движки работают на зарубежных серверах, а абоненты нередко даже при самых качественных решениях распознают искусственность речи. Сценарным же роботам, при всей естественности дикторского голоса, не хватает адаптивности в живом диалоге».
Разница есть и в экономике. Сценарные роботы дают минимальную стоимость минуты: здесь нет затрат на LLM-токены и GPU-инференс для синтеза. А вот для ИИ-роботов каждую реплику им нужно синтезировать в реальном времени, что влечёт расходы на токены и TTS-синтез.
Гибридные модели — попытка совместить лучшее из обоих подходов. Они ведут клиента по скрипту, а при сложных возражениях подключают LLM. Но именно в этих точках, где нужна максимальная убедительность, гибриды переключаются на синтез и часто теряют доверие абонента.
Один из возможных ответов на это противоречие — разделить управление диалогом и его озвучку. Логику маршрутизации отдать LLM, а вместо синтеза речи использовать заранее записанные дикторские реплики.
Такая архитектура работает следующим образом: робот получает реплику абонента, NLU определяет смысловую нагрузку, LLM по промпту выбирает подходящий ответ из аудиобиблиотеки и воспроизводит соответствующий файл. Речь не синтезируется в реальном времени, а только воспроизводится.
Аудиобиблиотека формируется из реальных диалогов компании: успешных, с возражениями, с нестандартными вопросами. Промпт-движок выделяет наиболее частотные и эффективные реплики, на их основе строится структура сценария, которую затем записывает профессиональный диктор. Или — что особенно актуально для B2B с постоянной аудиторией — голос реального сотрудника компании, которому клиенты уже доверяют.
Результат: гибкость диалога уровня ИИ-робота при качестве голоса сценарного решения.
По данным команды «Скорозвона», которая реализовала подобную архитектуру, в задачах исходящего лидгена на холодной базе такой подход даёт прирост конверсии до ×1,4 по сравнению со сценарными роботами.
Дополнительный операционный эффект — задержки в ответах ниже, чем при синтезе, поскольку система воспроизводит готовый файл, а не генерирует аудио на лету.
Здесь есть и регуляторное измерение. Лучшие TTS-движки — ElevenLabs, Google AI Studio и аналоги — работают через зарубежную инфраструктуру. Для банков, страховых компаний, коллекторских агентств и государственных структур это фактический стоп-фактор: передача данных о звонках на зарубежные серверы создаёт регуляторные риски.
Архитектура с локальными аудиофайлами решает эту проблему, поскольку в момент звонка никаких обращений к внешним API нет.
Честный разбор требует обозначить ограничения. Такая схема требует подготовительной работы: нужен датасет реальных диалогов (от 50 разнообразных записей), время на анализ и запись аудиобиблиотеки. Сборка занимает от одного до трёх дней при наличии материала, но без него не работает.
Подход не универсален. Если задача — массовый прозвон с минимальным бюджетом и предсказуемым диалогом, сценарный робот без LLM-оркестрации будет дешевле и проще. Если же чувствительность аудитории к голосу невысока и конверсия не зависит от «человечности» речи — стандартный ИИ-робот даст ту же гибкость при более простом запуске.
Архитектура LLM + аудиобиблиотека оправдывает себя в конкретном профиле задач: когда диалог непредсказуем, аудитория чувствительна к качеству коммуникации, а конверсия уже упирается в потолок из-за роботизированного голоса.
А как вы оцениваете влияние качества голоса на конверсию в ваших кампаниях — тестировали ли A/B между дикторской записью и TTS в одном сценарии?