Как разметка данных помогла AI определять ликвидность недвижимости по фотографиям

2026-05-09 02:07:10 Время чтения 26 мин 46

Еще несколько лет назад большинство AI-решений для недвижимости работали довольно примитивно. Сервисы могли анализировать цену за квадратный метр, район, количество комнат, иногда — историю продаж. Но когда речь заходила о реальной ликвидности объекта, модели начинали ошибаться.

На практике две квартиры в одном доме, с одинаковым метражом и этажом, могли продаваться с разницей в несколько месяцев. Причем одна уходила за неделю, а вторая висела полгода с постоянным снижением цены.

Причина оказалась простой: рынок недвижимости очень визуальный. Люди принимают решение не только цифрами.

Состояние ремонта, освещение, планировка, мебель, чистота помещения, качество кухни, вид из окна — все это напрямую влияет на скорость продажи. Но для AI это долго оставалось просто набором пикселей.

В какой то момент proptech-компании начали пытаться обучать модели анализировать фотографии квартир. И почти сразу столкнулись с проблемой: данных было много, но они были бесполезны для обучения.

Тысячи фотографий из объявлений выглядели хаотично:

  1. разные ракурсы
  2. плохой свет
  3. мусор в кадре
  4. старые фото
  5. неактуальные интерьеры
  6. странные описания

Более того, одна и та же квартира могла публиковаться на нескольких площадках сразу, причем с разным набором фотографий и даже разными характеристиками.

В итоге AI начинал делать странные выводы.

Например, модель могла определять квартиру как "премиальную" просто потому что на фото была большая люстра. Или считать объект низколиквидным из-за темного снимка, сделанного вечером на телефон десятилетней давности.

Один из кейсов вообще выглядел почти комично: модель начала связывать высокий спрос на квартиры с наличием большого телевизора в гостиной. Причина выяснилась позже — в обучающей выборке дорогие квартиры действительно чаще содержали такие фотографии.

Проблема оказалась не в AI. Проблема была в данных.

Чтобы модель реально начала понимать недвижимость, понадобилась полноценная разметка изображений. Причем не абстрактная, а максимально приближенная к тому, как объект воспринимает человек.

Команда US DataML подключилась к задаче подготовки датасета для обучения модели оценки ликвидности объектов недвижимости. Основная цель была не просто "научить" AI видеть комнаты, а помочь ему выделять признаки, которые реально влияют на скорость продажи и привлекательность квартиры для покупателя.

Для этого сначала пришлось определить, какие элементы вообще важны для модели.

На первом этапе аналитики собрали десятки тысяч объявлений и сопоставили фотографии со сроками продажи объектов. После этого начали искать закономерности.

Оказалось, что на ликвидность влияют не только очевидные параметры вроде ремонта или площади кухни.

Модель постепенно училась учитывать:

  1. естественное освещение
  2. тип напольного покрытия
  3. степень визуального шума
  4. состояние санузла
  5. количество свободного пространства
  6. наличие старой мебели
  7. качество кухни
  8. состояние стен и потолков
  9. даже общую "чистоту" кадра

Но чтобы AI начал различать эти признаки, изображения нужно было размечать вручную.

Для разметки использовали Label Studio — платформу, которую часто применяют в проектах, связанных с computer vision и подготовкой датасетов для AI-моделей. Через нее специалисты выделяли объекты на фотографиях и присваивали им классы и атрибуты.

Например:

  1. окно
  2. радиатор
  3. диван
  4. кухонный гарнитур
  5. плита
  6. тип пола
  7. признаки износа
  8. декоративные элементы
  9. источники света

Отдельно размечались негативные признаки:

  1. плесень
  2. трещины
  3. старая сантехника
  4. захламленность
  5. повреждения отделки
  6. следы протечек

При этом важна была не только сама разметка объектов, но и контекст.

Одно дело — старый шкаф в аккуратной квартире с хорошим светом. И совсем другое — та же мебель в темном помещении с облезшими стенами.

Из-за этого в проекте появились дополнительные атрибуты уровня изображения:

  1. общий уровень ремонта
  2. визуальная чистота помещения
  3. качество освещения
  4. ощущение свободного пространства
  5. общий уровень "усталости" интерьера

Часть датасета выглядела примерно так: современная квартира с хорошим освещением, нейтральным интерьером и минимальным визуальным шумом получала высокий рейтинг ликвидности. А старые квартиры с плохим светом, перегруженными деталями и визуальными дефектами — наоборот.

И именно на этом этапе стало понятно насколько сильно качество разметки влияет на итоговую работу модели.

Следующая проблема появилась уже после первой итерации обучения модели.

Формально AI начал показывать неплохие результаты. Он научился отличать современные интерьеры от устаревших, понимать разницу между хорошим ремонтом и "уставшей" квартирой, начал лучше прогнозировать вероятность быстрой продажи объекта.

Но при более глубокой проверке всплыли новые сложности.

Например модель иногда слишком сильно реагировала на отдельные детали. Хороший свет мог искусственно завышать оценку ликвидности даже у проблемной квартиры. А качественная широкоугольная съемка визуально "расширяла" помещение, из-за чего AI начинал воспринимать маленькие комнаты как более просторные.

Появились и совсем неожиданные зависимости.

В некоторых случаях модель начинала ассоциировать высокую ликвидность с определенным стилем фотографий. Потому что дорогие объекты чаще снимали профессиональные фотографы, а бюджетные квартиры — собственники на телефон.

Получалось, что AI частично учился распознавать не недвижимость, а стиль съемки.

Из-за этого датасет пришлось дорабатывать повторно.

Команда начала вводить дополнительные проверки качества разметки и балансировать выборку. В проект добавили квартиры разных сегментов:

  1. новостройки
  2. вторичное жилье
  3. студии
  4. премиальные объекты
  5. квартиры без ремонта
  6. жилье после косметического обновления
  7. объекты с профессиональной и любительской съемкой

Отдельное внимание уделили негативным сценариям. Потому что именно они сильнее всего влияли на поведение модели.

Например, фотографии с плохим освещением не всегда означали низкую ликвидность. Иногда собственники просто публиковали неудачные снимки. Аналогично пустая комната могла выглядеть хуже визуально, хотя сам объект находился в хорошем состоянии.

Поэтому часть разметки постепенно перешла от обычной object detection задачи к более сложной системе оценки признаков.

Разметчики уже не просто выделяли объекты рамками, а дополнительно оценивали:

  1. степень износа
  2. визуальную аккуратность помещения
  3. качество отделки
  4. уровень естественного света
  5. загруженность пространства
  6. визуальный шум
  7. признаки дешевого или устаревшего ремонта

Для этого пришлось подготовить подробные инструкции, иначе разные специалисты начинали трактовать изображения по своему.

Например, "хороший ремонт" для одного разметчика мог означать просто чистую квартиру. А другой относил к этой категории только современные интерьеры с качественными материалами.

В результате команда сформировала единый гайд по разметке с примерами для каждого уровня состояния помещения.

Это оказалось критически важным. Потому что AI очень чувствителен к качеству и единообразию данных. Если один и тот же тип квартиры в разных частях датасета размечается по разному, модель начинает обучаться на противоречивых примерах.

Еще одна проблема появилась на этапе проверки готовой модели.

Даже после качественной разметки AI иногда принимал решения, которые человеку казались нелогичными.

Например модель могла занизить оценку квартиры из-за старой кухни, несмотря на хороший район и адекватную цену. Или наоборот — переоценить объект с дорогим ремонтом в неудобной планировке.

Тогда стало понятно что фотографии нельзя анализировать отдельно от других данных.

В итоге систему начали обучать на комбинированных данных:

  1. изображения
  2. текст объявления
  3. площадь
  4. этаж
  5. район
  6. инфраструктура
  7. история цены
  8. сроки экспозиции объекта

Именно после объединения computer vision и структурированных данных результаты стали заметно стабильнее.

По внутренним метрикам качество прогнозирования ликвидности выросло более чем на 20% по сравнению с ранними версиями модели, обученными только на базовых параметрах объектов.

Но главный вывод проекта оказался в другом.

Большинство проблем AI в недвижимости были связаны не с архитектурой моделей и не с "недостаточно умным" алгоритмом. Основная сложность почти всегда упиралась в качество подготовки данных.

Именно поэтому сегодня разметка данных становится одной из ключевых частей любого AI-проекта в proptech. Без нее даже самые дорогие модели начинают находить ложные закономерности и делать выводы, которые плохо работают в реальной жизни.

Интересно, что похожие проблемы начали появляться практически у всех proptech-команд, которые пытались внедрять computer vision в недвижимость.

На старте многим казалось, что достаточно просто собрать большой архив фотографий и загрузить его в модель. Но объем данных сам по себе почти ничего не гарантировал.

В некоторых датасетах было по несколько миллионов изображений, однако качество обучения все равно оставалось нестабильным. Причина обычно повторялась: данные были неструктурированными.

Например, в одной категории могли одновременно находиться:

  1. реальные фотографии квартир
  2. рендеры от застройщиков
  3. фотографии после обработки
  4. изображения с водяными знаками
  5. коллажи
  6. скриншоты
  7. старые архивные снимки

Для человека разница очевидна. Для AI — нет.

Из-за этого модель могла начать воспринимать рендеры как признак высоколиквидного жилья. Ведь именно красивые маркетинговые изображения чаще встречались в объявлениях дорогих объектов.

Отдельная история — фотографии после обработки.

На рынке недвижимости давно используют агрессивную цветокоррекцию, HDR-фильтры, искусственное осветление помещений и широкоугольную съемку. Визуально квартира начинает выглядеть просторнее и дороже чем в реальности.

Если такие изображения попадают в обучение без дополнительной разметки, AI начинает считать подобную обработку частью самого объекта.

В проекте пришлось отдельно размечать:

  1. рендеры
  2. обработанные фотографии
  3. изображения с фильтрами
  4. фото плохого качества
  5. дубли
  6. кадры с сильными искажениями

Это позволило снизить количество ложных выводов модели.

Параллельно команда столкнулась еще с одной проблемой, о которой редко говорят публично: человеческий фактор в разметке.

Когда над большим датасетом работают десятки специалистов, постепенно начинает появляться разнородность в оценках. Особенно в задачах, связанных с визуальным восприятием.

Например:

  1. насколько квартира "светлая"
  2. интерьер современный или устаревший
  3. выглядит ли помещение просторным
  4. насколько ремонт визуально привлекательный

Даже опытные специалисты могли расходиться в оценках.

Поэтому в проекте ввели многоуровневую проверку качества:

  1. повторную валидацию части изображений
  2. контроль конфликтных разметок
  3. выборочную проверку senior-специалистами
  4. автоматический поиск аномалий в датасете

Фактически подготовка данных начала занимать не меньше ресурсов, чем само обучение модели.

И это довольно показательная история для всего AI-рынка.

Снаружи обычно обсуждают нейросети, модели и алгоритмы. Но внутри большинства проектов основная работа происходит именно на этапе подготовки данных. Потому что AI учится только на том, что ему показывают.

Если в датасете много шума, противоречий или случайных закономерностей, модель начинает воспроизводить эти ошибки в реальных сценариях.

В недвижимости это особенно критично. Ошибка AI здесь напрямую влияет на деньги:

  1. оценку объекта
  2. рекламный бюджет
  3. рекомендации пользователям
  4. скорость продажи
  5. работу агентов
  6. приоритизацию объявлений

Поэтому рынок постепенно приходит к более зрелому подходу. Компании начинают инвестировать не только в модели, но и в инфраструктуру подготовки данных:

  1. data labeling
  2. QA-проверки
  3. очистку датасетов
  4. стандартизацию изображений
  5. валидацию аннотаций
  6. переобучение выборок

Именно на таких задачах сегодня специализируются команды вроде US DataML, которые помогают готовить данные для AI-проектов в computer vision, NLP и других направлениях машинного обучения.

Потому что на практике хороший датасет очень часто дает больший эффект, чем очередная попытка заменить модель на более "модную".

Сейчас подобные системы постепенно начинают использоваться не только внутри крупных классифайдов и proptech-платформ.

AI-инструменты оценки объектов появляются у:

  1. агентств недвижимости
  2. застройщиков
  3. банков
  4. сервисов аренды
  5. инвестиционных платформ

Причем сценарии применения становятся все шире.

Например некоторые модели уже умеют автоматически:

  1. определять состояние квартиры по фотографиям
  2. выявлять признаки фейковых объявлений
  3. искать визуальные дубли объектов
  4. прогнозировать вероятность быстрой продажи
  5. оценивать привлекательность интерьера
  6. ранжировать объявления внутри платформ

Для пользователя это выглядит как обычный сервис рекомендаций. Но внутри таких систем работают довольно сложные механики computer vision и анализа данных.

При этом качество итогового результата все еще напрямую зависит от подготовки датасета.

Например если модель плохо обучена на квартирах эконом-сегмента, она начинает переоценивать современные студии с минималистичным интерьером и недооценивать более старое, но качественное жилье.

Похожая проблема возникает с региональными особенностями.

Интерьеры, которые считаются "нормальными" для Москвы, могут восприниматься совсем иначе в других городах. То же касается планировок, отделки и визуальных предпочтений покупателей.

Из-за этого универсальные датасеты часто работают хуже чем специализированные выборки, собранные под конкретные задачи и сегменты рынка.

В некоторых случаях команде приходилось отдельно дообучать модель:

  1. под новостройки
  2. под вторичный рынок
  3. под аренду
  4. под премиальный сегмент
  5. под региональные особенности

И это еще раз показало, что AI в недвижимости — это не история про "волшебную кнопку".

Большая часть работы находится за пределами самой модели:

  1. сбор данных
  2. очистка
  3. разметка
  4. контроль качества
  5. обновление выборок
  6. переобучение системы

Датасет приходится поддерживать постоянно.

Рынок недвижимости меняется довольно быстро. В моду входят новые стили интерьеров, меняются визуальные предпочтения покупателей, появляются другие стандарты отделки. То что модель считала современным несколько лет назад сегодня уже может восприниматься как устаревшее жилье.

Поэтому AI-системы приходится регулярно переобучать на новых данных.

Это одна из причин, почему многие компании начали выстраивать полноценные процессы data operations вместо разовых экспериментов с нейросетями.

Именно здесь становится критически важна качественная инфраструктура разметки:

  1. понятные инструкции
  2. единые стандарты
  3. QA-проверки
  4. контроль консистентности
  5. масштабируемые пайплайны подготовки данных

Без этого AI начинает постепенно деградировать даже после успешного запуска.

Снаружи подобные проекты часто выглядят как очередная "умная нейросеть для недвижимости". Но внутри это огромный объем ручной и полуавтоматической работы с данными.

И чем сложнее задача, тем сильнее результат зависит не от самой модели, а от того насколько качественно подготовлен датасет для ее обучения.

Именно поэтому сегодня многие AI-команды начинают воспринимать data labeling уже не как вспомогательный процесс, а как полноценную часть продукта.

Интересно что похожий подход постепенно начинает использоваться и за пределами классической жилой недвижимости.

Например в коммерческом сегменте AI уже тестируют для оценки:

  1. состояния офисов
  2. привлекательности торговых помещений
  3. качества отделки бизнес-центров
  4. визуального состояния складов
  5. ликвидности объектов для инвестиций

Там задачи еще сложнее. Потому что модель должна учитывать не только интерьер, но и огромное количество косвенных факторов:

  1. тип освещения
  2. состояние входной группы
  3. качество навигации
  4. плотность рабочих мест
  5. уровень износа помещения
  6. визуальное восприятие пространства

Причем многие параметры вообще сложно формализовать словами. Человек интуитивно понимает что помещение выглядит "дешево", "устаревшим" или наоборот современным и привлекательным. Для AI это набор признаков, которые нужно сначала правильно собрать и разметить.

Похожая ситуация сейчас развивается и в сегменте краткосрочной аренды.

Сервисы аренды уже экспериментируют с моделями, которые прогнозируют:

  1. вероятность бронирования
  2. привлекательность фотографий
  3. качество интерьера
  4. уровень доверия к объекту
  5. потенциальную конверсию объявления

И снова почти все упирается в данные.

Если модель обучена на плохо подготовленном датасете, она начинает ориентироваться на случайные визуальные закономерности. Например считать дорогими квартиры только со светлыми стенами или автоматически повышать рейтинг объектам с панорамными окнами.

В реальности такие зависимости работают далеко не всегда.

Поэтому в зрелых AI-проектах сегодня все чаще используют многоуровневую разметку.

На одном изображении могут одновременно присутствовать:

  1. object detection
  2. segmentation
  3. классификация сцены
  4. атрибутная разметка
  5. quality scoring
  6. semantic labeling

Фактически AI пытаются научить воспринимать недвижимость примерно так же, как ее оценивает человек.

И именно здесь становится понятна настоящая роль data labeling в AI.

Разметка — это не просто "обвести объекты рамками". Это способ объяснить модели какие признаки действительно важны и как человек интерпретирует визуальную информацию.

В проектах, связанных с недвижимостью, это особенно заметно. Потому что рынок очень эмоциональный и визуальный.

Покупатель редко принимает решение только рационально. Огромную роль играют ощущения:

  1. уютно ли выглядит квартира
  2. кажется ли помещение просторным
  3. выглядит ли ремонт современным
  4. вызывает ли объект доверие
  5. хочется ли представить себя внутри этого пространства

AI напрямую не понимает такие категории. Но может постепенно учиться через качественно подготовленные данные.

Именно поэтому сейчас многие proptech-компании начинают уделять все больше внимания качеству подготовки датасетов, а не только выбору модели или GPU-инфраструктуры.

Потому что даже самая мощная нейросеть не сможет стабильно работать если обучается на хаотичных, противоречивых или плохо размеченных данных.

На практике хороший датасет часто становится главным конкурентным преимуществом AI-продукта.

И пока одни компании продолжают экспериментировать с моделями, другие выстраивают полноценные процессы подготовки данных вместе со специализированными командами вроде US DataML, которые занимаются разметкой, валидацией и подготовкой датасетов для computer vision и других AI-задач.

Потому что именно качество данных в итоге определяет насколько "умным" окажется AI в реальной работе, а не в красивой презентации.