Аудит сайта на миллионы страниц — это не про страницы

2026-06-18 15:58:17 Время чтения 3 мин 73

Почему на больших проектах 300 замечаний в отчёте хуже, чем 3 системные задачи — и при чём здесь sitemap

Стандартный SEO-аудит выглядит так: краулер проходит сайт, выгружает таблицу ошибок, специалист пишет отчёт на 300 пунктов. На сайте в несколько тысяч страниц это работает. На маркетплейсе, классифайде или большом каталоге — ломается, и ломается дорого.

Причина простая. На сайте с миллионами адресов нельзя проверить каждую страницу — и не нужно. Полный обход краулером стоит как месячная зарплата специалиста и занимает дни, а в конце даёт таблицу, которую всё равно придётся сегментировать вручную. Платишь дважды: за сбор и за разбор.

Я работаю с такими проектами иначе и недавно разобрал метод на Habr — с кодом и схемами. Здесь — короткая версия для тех, кто заказывает или продаёт такие аудиты.

На масштабе аудит перестаёт быть работой со страницами. Он становится работой с классами страниц. У большого сайта типов страниц — десятки, а самих адресов каждого типа — сотни тысяч. Все они порождены одним шаблоном. Значит и проблема, и решение живут на уровне шаблона, а не отдельного URL. Одна правка меняет поведение поискового бота на сотнях тысяч страниц сразу.

Отсюда первый сдвиг в методике: вместо обхода всех страниц я беру карту sitemap, разбираю структуру адресов на типы и накладываю её на реальный спрос. На стыке вылезает то, что съедает бюджет: сотни тысяч страниц, которые сайт нагенерил сам, на которые нет ни одного запроса и по которым поисковый бот ходит вхолостую — вместо того чтобы индексировать коммерчески ценные страницы. В отчётах Google это видно как тысячи строк «обнаружено, не проиндексировано» и «просканировано, но не проиндексировано».

Отсюда второй сдвиг — в том, что считать результатом аудита. Не список из 300 замечаний по конкретным URL, а 2–3 системные задачи, которые масштабируются на весь класс страниц. Для агентства это меняет и продукт, и разговор с клиентом: вы продаёте не объём найденных ошибок, а приоритизацию, которая реально двигает индексацию и трафик.

Полный технический разбор — sitemap, анализ структуры адресов, сопоставление со спросом, проверка рендеринга и подтверждение по логам и Google Search Console — в статье на Habr: https://habr.com/ru/articles/1049136/