Недавно в нашей студии разгорелся нешуточный спор, который едва не перешел в рукопашную. Я, SEO-специалист с двадцатилетним стажем, настаивал на удалении нескольких тысяч страниц с клиентского новостного портала. Мой оппонент — разработчик — выдвигал резонные возражения против такой радикальной операции.
Разберем этот конфликт по существу, потому что за ним стоит фундаментальный вопрос современного SEO для новостных медиа.
Категория первая: дубли публикаций. Появляются из-за ошибок при публикации материалов. Обычно не превышают 0,1% от общего массива страниц. Здесь споров нет — удаляем без раздумий.
Категория вторая: пустые и технические страницы. Журналист нажал "Опубликовать", но забыл наполнить материал содержанием. Или наполнил формально — пара предложений для галочки. Тоже относим на ошибку редакции и устраняем.
Категория третья: страницы с минимальным контентом (10-30 слов). Обрывки новостей, анонсы без раскрытия темы, заметки-однострочники. Малоценный контент, который не приносит пользы ни читателям, ни поисковикам. По моему убеждению, удаление таких материалов безболезненно.
Категория четвертая: псевдодубли. Здесь интереснее. Яндекс.Вебмастер в отчете "Дублирующиеся title" фиксирует страницы с идентичными или почти идентичными заголовками. Классический пример: "Отключение света в Ленинском районе", "Отключение света в Советском районе", "Отключение света в Центральном районе". Технически это разные материалы, но поисковик может их воспринимать их как условные дубли. Сюда же попадают однотипные сообщения о погоде, ДТП, коммунальных авариях. Моя позиция — можно резать без последствий.
Категория шестая: страницы с ошибками. Этот пункт вынесен отдельно, хотя по логике относится к первой группе. 404-ошибки, битые редиректы, битые картинки — все это удаляется по умолчанию, как говорится, по “долгу службы”.
Первые четыре категории плюс шестая составляют обычно 2-3%, максимум 5% от общего объема страниц новостного ресурса. Наш многолетний опыт показывает: их удаление никогда не приводило к негативным последствиям для трафика или позиций сайта в поиске. В целом, на “хорошем” сайте СМИ таких страниц минимум.
А вот здесь начинается самое интересное. Речь о страницах, попавших в проблемные отчеты поисковых систем. В Google это статусы "Страница просканирована, но пока не проиндексирована" и "Обнаружена, не проиндексирована". В Яндексе — "Малоценные или маловостребованные страницы" и подобные страницы. К этой же категории относятся страницы, на которые поисковый бот не заходил годами, и материалы с нулевой посещаемостью за длительный период. Получается большой зоопарк проблемных ситуаций, требующих индивидуального разбора.
Парадокс ситуации: среди этих "отверженных" можно найти вполне качественные авторские материалы. Репортажи, аналитику, интервью — контент, который на конкурирующих ресурсах спокойно индексируется и приносит трафик. Почему наш сайт попал в немилость? Возможно, он недостаточно авторитетен в глазах поисковиков? Или проблема в технической реализации?
Наш практический опыт подсказывает тревожную закономерность: Яндекс склонен к эскалации проблемы. После достижения некоего критического порога страниц со статусом "малоценные" этот ярлык переносится на весь сайт целиком. Google действует похожим образом — постепенно увеличивает количество “некачественных” страниц, и есть серьезные подозрения, что это влияет даже на свежие публикации. Итогом падение трафика из поиска. Гугл показывает ваш сайт, даже по названию статьи далеко не на первой страницы поисковой выдачи.
Так что делать с пятой категорией? Удалять или пытаться реанимировать?
Прежде чем я раскрою свою стратегию, честно представлю аргументы оппонента. Мой коллега-разработчик — человек с многолетним опытом работы с CMS для новостных изданий — выдвинул восемь конкретных возражений. Каждое из них требует ответа.
Возражение первое: асимметрия индексации
"Google не индексирует материал, а Яндекс его видит и показывает в выдаче. Или наоборот. Физическое удаление приведет к уменьшению размера поискового индекса в той системе, где страница работала нормально. Как поступать?"
Мой ответ: если ставить вопрос настолько узко, можно найти пересечение проблемных страниц в обеих поисковых системах и удалить только их. То есть удаляем материалы, которые не индексируются и в Яндексе, и в Google одновременно. Затем наблюдаем реакцию поисковиков и принимаем решение о следующих шагах. Да, это более трудоемкий подход, но он минимизирует риски.
Возражение второе: трафик с изображений
"Картинки на сайте — хоть и небольшой, но тоже источник трафика. Особенно у изданий с собственными фотокорреспондентами. Удаляя материал, мы теряем и фотографии."
Мой ответ: в определенный момент мы начали использовать специальные метки для фотоматериалов редакции. С помощью атрибута вроде можно пометить, что данное изображение является авторской работой редакции. К таким материалам нужно отнестись внимательнее и не удалять их автоматически.
Также очевидно, что одна и та же фотография может быть размещена в нескольких новостных материалах. Здесь требуется продуманный подход: нужно проверить, не используется ли изображение в материалах, которые хорошо индексируются, прежде чем удалять страницу.
Впрочем, трезво оценим масштаб проблемы: трафик с картинок на сайтах СМИ обычно составляет 1-3% от общего объема и часто имеет низкое качество с точки зрения конверсий и вовлеченности. Пользователь искал изображение, кликнул, посмотрел картинку и ушел. Потеря такого трафика не критична.
Возражение третье: рекламные материалы
"Рекламные тексты почти гарантированно попадут в категорию малоценных страниц. Как их вычленить, чтобы не удалить по ошибке?"
Мой ответ: для большинства наших клиентов мы внедрили специальную разметку с идентификатором erid (обязательная маркировка рекламы). По этому признаку можно определить, что материал является коммерческой публикацией, и исключить его из списка на удаление.
Можно придумать любую собственную метку для PR-материалов, спонсорских статей и других типов контента, которые нельзя трогать по договорным обязательствам.
Если речь идет о старом архиве без разметки, придется просматривать такие материалы вручную. Да, это трудоемко, но другого пути я не вижу.
Возражение четвертое: ресурсоемкость операции
"Удаление десятков тысяч записей из WordPress — очень ресурсоемкая операция. Она может положить сервер или растянуться на месяца. Как технически это реализовать?"
Мой ответ: здесь я, к сожалению, мало чем помогу. Это задача для разработчика или системного администратора. Удаление придется выполнять непосредственно из базы данных. Процесс действительно ресурсоемкий не только для WordPress, но для любой CMS при таких объемах.
Рекомендую разбить операцию на небольшие порции — удалять по 2 000-3 000 материалов за раз с интервалами, чтобы не перегружать сервер. Проводить работы в ночное время или в периоды минимальной посещаемости.
Возражение пятое: внезапное воспоминание редактора
"Удалили материалы, а через неделю главный редактор вспоминает про какой-то важный текст. Неважно, что он не был в индексе и не приносил трафика — редактор хочет его вернуть. Какие действия?"
Мой ответ: восстанавливать из бэкапа. Другого пути не вижу. Именно поэтому критически важно сохранить полную резервную копию до начала операции. В идеале — держать удаленные данные в течение 3-6 месяцев на случай подобных ситуаций. Второй вариант проверить сохраненки в машине времени интернета.
Также рекомендую перед массовым удалением согласовать список материалов с редакцией. Выгрузить перечень URL-адресов, заголовков и дат публикации, отправить главреду и ключевым журналистам. Пусть просмотрят и укажут на материалы, которые нужно сохранить по редакционным причинам.
Возражение шестое: мусор в метаданных
"Если удалять только пост, но не удалять при этом метаинформацию — метки, категории, связанные изображения — это станет источником нового мусора на сайте?"
Мой ответ: безусловно, да. Нужно удалять материал полностью, включая все связи в базе данных. Более того, если делать это разово, а не как системную практику, имеет смысл предварительно почистить систему тегов.
Удалить или объединить теги, содержащие малое количество привязанных материалов. Заменить разрозненные теги на консолидированные, чтобы каждый тег содержал достаточное количество новостей — минимум 5-10 материалов. Эту работу лучше провести до основного удаления контента, чтобы потом не возвращаться к вопросу дважды.
Возражение седьмое: формат хранения данных для отката
"Где и в каком формате хранить данные для возможного отката изменений?"
Мой ответ: "Ты же программист, тебе и думать". Но серьезно — задача действительно непростая, учитывая, что удалить все разом не получится и процесс растянется во времени. Можно рассмотреть несколько вариантов:
Выбор зависит от технических возможностей, объема данных и требований к скорости возможного восстановления.
Возражение восьмое: ревизии постов
"Что делать с ревизиями постов в WordPress? Они плодятся при каждом сохранении и занимают место в базе данных."
Мой ответ: предлагаю провести постревизию после основного удаления. Заново обойти весь сайт автоматическим скриптом и удалить связи со старыми постами, несуществующими тегами и изображениями. Убрать битые внутренние ссылки, почистить код страниц от артефактов удаленного контента.
Это отдельная техническая операция, которую имеет смысл делать через 1-2 недели после основного удаления, когда станет понятно, что откатывать изменения не потребуется.
Все возражения разработчика технически обоснованы и требуют продуманных решений. Но стратегически правильное решение — это всё же удаление проблемного контента. Объясню почему.
Поисковые системы оценивают сайт как по отдельным страницам, так и целиком. Если значительная часть вашего контента попадает в категорию "малоценного", это снижает общую репутацию ресурса в глазах алгоритмов. Происходит то, что я называю "эффектом заражения" — проблемный статус распространяется с отдельных материалов на весь сайт.
Мы наблюдали это на некоторых своих проектах: как только доля непроиндексированных или малоценных страниц превышает определенный порог, начинаются проблемы с индексацией даже качественных свежих материалов. Поисковик как бы говорит: "Ваш сайт в целом не заслуживает доверия, поэтому мы будем осторожны даже с новыми публикациями".
Удаление проблемного контента повышает относительную долю качественных материалов и улучшает репутационные метрики сайта. После правильно проведенной чистки мы регулярно наблюдаем улучшение позиций оставшихся материалов и ускорение индексации новых публикаций.
Да, это трудоемко. Да, это требует технических усилий и согласования с редакцией. Но альтернатива — постепенная деградация видимости сайта в поиске — куда хуже.
А давайте! Мы же не звери какие-то, чтобы безвозвратно удалить несколько человеко-лет редакции. Итак, что обычно делают SEO-шники?
Первое, устраняем явные ошибки, описанные в первой части нашей статьи.
Втрое, но при этом первое подозрение всегда падает на страницы-сироты — материалы, на которые не ведет ни одна внутренняя ссылка. Это самая распространенная причина проблем с индексацией, возникающая по множеству причин на любом крупном портале.
Решение выглядит простым: проставить ссылки на эти страницы через XML-карту, создать HTML-карту сайта, продумать систему перелинковки старых материалов. С архивными новостями можно вообще не церемониться — их “все равно никто не читает”. Берем все старые материалы и связываем друг с другом по принципу "три на три": в каждую статью втыкаем случайные ссылки на другие материалы из той же рубрики. Можно применить ИИ и слинковать более интеллектуально. С помощью того же искусственного интеллекта создать тематические теги по персоналиям, организациям, географической привязке, мероприятиям, событиям. Главная задача — добиться появления максимальной линковки всех статей на сайте..
Третье — устранить SEO-огрехи на уровне отдельных страниц. Убедиться, что контент уникальный. Обычно с самим текстом проблем нет, но бывает, что description у разных статей одинаковые или вообще отсутствуют. Внедрить разметку Schema для структурированных данных. Третий пункт — улучшить показатели скорости загрузки через Google PageSpeed Insights, посмотреть, где можно оптимизировать производительность.
Четвертое направление работы — устранить проблемы на уровне всего сайта: закрыть мусорные страницы от индексации, корректно указать страницы с пагинацией, расставить микроразметку. В целом четко объяснить поисковикам, что за контент перед ними и как его правильно индексировать.
Список не исчерпывающий, но из категории "простых" решений, которые не требуют десятков и сотен часов доработок, выглядит вполне реальным для реализации.
Итак, лечение проведено, и вместо уменьшения проблемных страниц мы видим их увеличение. Как так? Мы же хотели все исправить. Ответ простой: вы только что действительно оптимизировали сайт, и поисковики наконец "добрались" до других проблемных страниц, которые раньше просто не “видели”. Теперь они смогли их проиндексировать и отнести к статусу проблемных.
Может ли что-то улучшиться? Да, сценарий может быть позитивным — значит вы на верном пути, и через некоторое время показатели выправятся. А может быть негативным, и вот мы имеем увеличившийся процент проблемных страниц. Что делать в такой ситуации?
Если бы я был специалистом по SEO — а я как раз им являюсь — то вижу картину так: у нас есть хорошо индексируемый сайт, ссылки ведут на отдельные новостные материалы в достаточном количестве. Статьи корректно размечены для поисковых машин. Поисковые боты действительно посетили эти страницы, но их статус после этого не изменился. То есть видимых проблем с индексацией нет. Кроме того, устранено негативное влияние остальных страниц на сайте. Соответственно, дело все же в контенте самих статей.
Грамотно дописывать контент на сайтах СМИ массово мы пока не умеем. Точнее, “нам страшно” делать это на действующих новостных порталах — последствия непредсказуемы. Поэтому предложение с удалением проблемных страниц остается в силе. Лучше иметь меньше материалов, но качественных и корректно проиндексированных, чем тащить за собой балласт из тысяч страниц, которые поисковики считают некачественными.
А может какое-то полурешение? А давайте полурешение!
Как бы я действовал дальше в подобной ситуации? Во-первых, сохраняю все, что собираюсь удалять. Полный бэкап материалов — обязательное условие. Во-вторых, удаляю малыми порциями, наблюдая за реакцией поисковых машин и техническим состоянием сайта. Резкие массовые удаления могут вызвать непредсказуемые последствия, лучше действовать постепенно и контролируемо.
Первый шаг — выкачиваем базу всех проблемных страниц из Яндекс.Вебмастера и Google Search Console. Важный момент: данные в Google могут быть неактуальными, это нужно учитывать при анализе. Проверяем, что это за страницы. Возможно, мы пропустили какие-то технические ошибки, возможно именно в этот статус попали страницы с переключателями ленты новостей за прошлые годы или другие служебные элементы. Однако если это обычные страницы с обычным новостным контентом, просто прогоняем их по фильтрам для анализа.
Дальше выявляем типы контента на сайте (специфические однотипные страницы), даже если он проиндексирован и не имеет статуса проблемного. Как говорится, была бы страница, а негативный статус присвоится — рано или поздно. Решаем, насколько нам "жалко" удалять этот контент. Оцениваем историческую ценность, возможный трафик, репутационные риски. Если материал не представляет особой ценности — удаляем без сожалений.
Второе — смотрим пересечение у выкачанных проблемных страниц у Google и Яндекса. Если материалы имеют негативный статус в обеих поисковых системах одновременно, их режем без разговоров. Когда оба поисковика независимо друг от друга считают страницу проблемной — это однозначный сигнал к действию.
Третий шаг сложнее — решаем, что делать со страницами, которые по нашему мнению выглядят прилично, но по какой-то причине признаны поисковиком некачественными. Здесь есть несколько вариантов в зависимости от количества таких страниц. Можно удалить и попробовать залить заново через некоторое время, делая это постепенно. Иногда повторная индексация после технических улучшений дает другой результат.
Четвертый пункт — глянуть, может негативный статус присвоен статьям, перепечатанным с других источников. Если данные страницы представляют собой банальную копию для поисковой машины, их можно удалять без колебаний. Мало шансов, что они когда-либо выйдут в поиске на какие-то позиции. Дублированный контент — это прямой путь в фильтры.
В целом для всей операции нужен профессиональный SEO-специалист, чтобы оценивать динамику индексации и следить за реакцией поисковиков. Это не разовая операция, а процесс, требующий постоянного мониторинга. После каждой волны удалений необходимо анализировать изменения в Search Console, отслеживать поведение трафика, проверять, не возникли ли новые технические проблемы. Только такой методичный подход позволяет безопасно очистить сайт от балласта, не потеряв при этом действительно ценные материалы и не навредив общей индексации новостного портала.