Каким образом можно предотвратить индексацию неправильных адресов в системе Битрикс?

Question

AstralAdventurer

1с-битрикс

Каким образом можно предотвратить индексацию неправильных адресов в системе Битрикс?

Здравствуйте! <br/> Я заметил, что Google начал активно индексировать несуществующие страницы на моём сайте. Например, адреса таких страниц имеют формат: домен.ру/статья/что-то на подобии/migrations/helpers/data/null/params/init/init.

31 октября 2024 г. 10:22

Ответы на вопрос 2

Похожие вопросы

Answer 1

Здравствуйте!

Чтобы предотвратить индексацию неправильных адресов в системе Битрикс, можно использовать несколько методов:

1. **Настройка файла robots.txt**:
Добавьте в файл `robots.txt` директивы, которые запретят индексирование определенных адресов или путей. Например:

```
User-agent: *
Disallow: /статья/что-то на подобии/migrations/helpers/data/
```

Это укажет поисковым системам не индексировать указанные пути.

2. **Использование мета-тегов**:
На страницах, которые не должны индексироваться, добавьте мета-тег `noindex` в `<head>`:

```html
<meta name="robots" content="noindex, nofollow">
```

Это скажет поисковым системам не индексировать эту страницу.

3. **Удаление несуществующих страниц**:
Проверьте, почему эти страницы генерируются, и, если это ошибка, устраните её. Например, возможно, некоторые ссылки на сайте ведут на несуществующие ресурсы, и их нужно исправить.

4. **Использование редиректов**:
Если у вас есть ссылки на старые/неправильные страницы, настройте редиректы на соответствующие актуальные страницы. Это можно сделать через правила `.htaccess` или через систему управления редиректами в Битрикс.

5. **Логи ошибок**:
Проверьте логи ошибок сервера, чтобы выявить, откуда возникают запросы на несуществующие страницы. Это поможет вам понять, как лучше защитить свой сайт от таких запросов.

6. **конфигурация системы Битрикс**:
Если вы используете «Управление контентом» в Битрикс, убедитесь, что у вас установлены правильные правила ЧПУ (человекопонятные урлы) и исключены ненужные маршруты.

7. **Контроль индексации**:
Регулярно проверяйте Google Search Console на наличие неиндексируемых страниц. Вы можете инициировать удаление страниц с помощью инструмента "Удаление URL".

Применяя эти методы, вы сможете эффективно управлять индексацией ваших страниц и защитить свой сайт от нежелательной индексации.

Answer 2

Скорее всего правило Disallow банит не то и его нужно переделать, если уже был рецидив. 
 
 Эти урлы способом своей генерации (если таких страниц конечно нет на сайте) похожи на проделки js либы sourcebuster.js или на какой-то её аналог. 
 По этой либе, кажется, есть гайд тут , можно попробовать понять каким образом она билдит такие урлы. 
 
 Банить нужно не по null, а по фрагментам в духе: 
 

/data/

/params/

/utils/

/helpers/

/migrations/
 (но это устранение следствия, а не причины и конечно делать это нужно, если таких легальных урлов на сайте нет) 
 
 Из глупого, что пришло в голову, можно на самом сайте создать страницу, которая будет ловить эти "неправильные" урлы, где в head у тебя будет: 
 <meta name="robots" content="noindex"> 
 (но это может быть опасно, если в обработку этого php скрипта попадёт легальная страница) 
 
 Из опыта: поисковые системы находят страницы сайта не только по ссылкам на страницах (a href="url"), но и смотрят куда юзеры заходят и какой урл у них был на сайте - в этом им помогают сервисы аналитики (для Яндекса это метрика, для Гугла это аналитика - после нахождения страницы оно скармливается поисковой системе).