ИИ не умеет работать с «грязными» данными

2025-12-26 12:55:55 Время чтения 5 мин 50

Как только компании всерьез задумываются о машинном обучении или продвинутой аналитике, почти сразу выясняется простая вещь: без порядка в данных «ничего не полетит». Поэтому первым шагом становится выстраивание MDM (Master Data Management) - единой, актуальной и надежной версии всего массива ключевой информации. В российской практике к такому подходу пока относятся выборочно. Однако для тех, кто действительно планирует масштабировать процессы с помощью искусственного интеллекта (ИИ), это уже по сути не рекомендация, а одной из базовых требований.

Представим следующую ситуацию. Компания более десяти лет работает в области поставок медицинского оборудования в Россию, ежегодные обороты составляют миллиарды рублей, команда стабильная и с большим опытом. За это время накоплена внушительная база знаний: входящие запросы, принятые решения, история взаимодействия с клиентами, регуляторами. Формально данные выглядят «прилично» - они структурированы, записи в целом единообразны.

В какой-то момент собственник принимает вполне логичное решение: внедрить LLM-бота, который будет обрабатывать клиентские запросы по ввозу товаров в Россию. Идея кажется очевидной. База кейсов огромная, принципиально новых ситуаций почти не возникает, большинство вопросов повторяются годами. Пользователь передает минимальный набор данных о товаре, а система за секунды возвращает все необходимое для оформления: коды, требования, ограничения. То, на что у менеджера раньше уходили дни, превращается в автоматический ответ. На первый взгляд - задача элементарная. У заказчика уже есть таблица, где «все собрано». Остается лишь подключить ИИ и проверить актуальность информации.

Сварили кофе, набросали промпт - получился громоздкий, местами неуклюжий, но рабочий. Прогнали его через несколько моделей, протестировали на выборке из существующей базы - в целом результат достойный. Где-то не хватает входных параметров, но добавляешь один уточняющий признак - и ответ становится почти идеальным. Казалось бы, осталось последнее: связать промпт с таблицей и запускать решение. Но именно здесь начинается самая неприятная часть.

Выясняется, что то, что внешне выглядит как «таблица», на практике представляет собой хаос. Поля не согласованы между собой: в одном столбце - коды ТН ВЭД, в другом - коды медицинских изделий, иногда вперемешку. Где-то значения отсутствуют, где-то давно устарели, где-то допущены опечатки или банальные человеческие ошибки. И все это - в тысячах строк. Более того, сама таблица оказывается не первоисточником, а выгрузкой из внутренней системы, причем с некоторыми «ошибками». Проверить все вручную? Теоретически возможно. Практически - дорого, долго и все равно не даст стопроцентной уверенности в результате.

На этом этапе и ломается большинство попыток внедрения ИИ в реальные бизнес-процессы. Не потому, что технологии «не готовы» - они работают уже давно. Проблема почти всегда упирается в сами данные и их структуру. Многие крупные компании , в частности финансовые институты или например авиакомпании, проходят этот этап легче: они годами инвестировали в строго структурированные системы. 

Что же делать тем, у кого таких систем нет? По сути, можно говорить о двух сценариях.

Первый: перестраивать логику решения: добавлять уровни проверки, усложнять промпты, дробить базу знаний на слои, вводить ручную валидацию на критических этапах. Это увеличивает стоимость и снижает скорость, но позволяет постепенно двигаться вперед без полной остановки проекта.

Второй: запускать ИИ в пилотном режиме внутри компании. Система формирует предварительный ответ, а финальное решение остается за человеком. Параллельно начинается работа по сбору новой, чистой и структурированной базы данных - той самой, которая со временем станет фундаментом для масштабируемого и публичного продукта.