Каким образом можно предотвратить индексацию неправильных адресов в системе Битрикс?

Здравствуйте! <br/> Я заметил, что Google начал активно индексировать несуществующие страницы на моём сайте. Например, адреса таких страниц имеют формат: домен.ру/статья/что-то на подобии/migrations/helpers/data/null/params/init/init.
  • 31 октября 2024 г. 10:22
Ответы на вопрос 2
Здравствуйте!

Чтобы предотвратить индексацию неправильных адресов в системе Битрикс, можно использовать несколько методов:

1. **Настройка файла robots.txt**:
   Добавьте в файл `robots.txt` директивы, которые запретят индексирование определенных адресов или путей. Например:

   ```
   User-agent: *
   Disallow: /статья/что-то на подобии/migrations/helpers/data/
   ```

   Это укажет поисковым системам не индексировать указанные пути.

2. **Использование мета-тегов**:
   На страницах, которые не должны индексироваться, добавьте мета-тег `noindex` в `<head>`:

   ```html
   <meta name="robots" content="noindex, nofollow">
   ```

   Это скажет поисковым системам не индексировать эту страницу.

3. **Удаление несуществующих страниц**:
   Проверьте, почему эти страницы генерируются, и, если это ошибка, устраните её. Например, возможно, некоторые ссылки на сайте ведут на несуществующие ресурсы, и их нужно исправить.

4. **Использование редиректов**:
   Если у вас есть ссылки на старые/неправильные страницы, настройте редиректы на соответствующие актуальные страницы. Это можно сделать через правила `.htaccess` или через систему управления редиректами в Битрикс.

5. **Логи ошибок**:
   Проверьте логи ошибок сервера, чтобы выявить, откуда возникают запросы на несуществующие страницы. Это поможет вам понять, как лучше защитить свой сайт от таких запросов.

6. **конфигурация системы Битрикс**:
   Если вы используете «Управление контентом» в Битрикс, убедитесь, что у вас установлены правильные правила ЧПУ (человекопонятные урлы) и исключены ненужные маршруты.

7. **Контроль индексации**:
   Регулярно проверяйте Google Search Console на наличие неиндексируемых страниц. Вы можете инициировать удаление страниц с помощью инструмента "Удаление URL".

Применяя эти методы, вы сможете эффективно управлять индексацией ваших страниц и защитить свой сайт от нежелательной индексации.
Скорее всего правило Disallow банит не то и его нужно переделать, если уже был рецидив. 

Эти урлы способом своей генерации (если таких страниц конечно нет на сайте) похожи на проделки js либы sourcebuster.js или на какой-то её аналог.
По этой либе, кажется, есть гайд тут , можно попробовать понять каким образом она билдит такие урлы.

Банить нужно не по null, а по фрагментам в духе:

/data/
/params/
/utils/
/helpers/
/migrations/
(но это устранение следствия, а не причины и конечно делать это нужно, если таких легальных урлов на сайте нет)

Из глупого, что пришло в голову, можно на самом сайте создать страницу, которая будет ловить эти "неправильные" урлы, где в head у тебя будет:
<meta name="robots" content="noindex">
(но это может быть опасно, если в обработку этого php скрипта попадёт легальная страница)

Из опыта: поисковые системы находят страницы сайта не только по ссылкам на страницах (a href="url"), но и смотрят куда юзеры заходят и какой урл у них был на сайте - в этом им помогают сервисы аналитики (для Яндекса это метрика, для Гугла это аналитика - после нахождения страницы оно скармливается поисковой системе).
Похожие вопросы