Здравствуйте!
Проблема с дубликатами страниц из-за GET-параметров — достаточно распространенная в контексте SEO. В вашем случае это касается URL-адресов, которые используются для скачивания файлов и, как следствие, могут вызывать трудности с индексацией.
1. **Редиректы**: Вы уже упомянули о том, что редирект на страницу без GET-параметров не подходит, так как файл не будет скачиваться. В таком случае, можно рассмотреть другие методы, такие как использование серверного скрипта, который будет обрабатывать запросы и возвращать файл по желаемому URL. Этот подход бы немного изменил логику работы с GET-параметрами и позволил бы избежать дублирования.
2. **Canonical-теги**: Если у вас есть более «чистый» URL для скачивания файла, вы можете добавить тег `<link rel="canonical" href="https://example.com/downloads/filename.pdf" />` на страницы с параметрами. Это даст понять поисковым системам, какая версия страницы является основной.
3. **robots.txt**: Ваша попытка использовать `robots.txt` для блокировки индексации таких страниц имеет свои нюансы. Синтаксис `Disallow: /downloads/*.pdf?entityId=` не является корректным, так как `robots.txt` не поддерживает wildcard-символы после «?». Кроме того, это не гарантирует, что страницы не будут индексироваться, так как поисковики могут индексировать URL с GET-параметрами.
4. **Файлы для скачивания и индексация**: Учтите, что хотя бы нагрузка от страниц с GET-параметрами может снизить общую индексацию сайта. Лучше всего сконцентрироваться на предоставлении семантически единственного уникального адреса для каждого файла (например, через 301 редирект) и при необходимости использовать JavaScript для управления загрузкой файла.
5. **Google Search Console & Яндекс.Вебмастер**: В случае, если у вас остались дубликаты, стоит использовать инструменты вебмастера для устранения ошибок. Особенно это касается удаления URL через соответствующие инструменты.
Таким образом, вам стоит подумать о переосмыслении структуры URL для загрузок, чтобы избежать дублирования контента и проблем с индексацией. Если это затруднительно, правильная стратегия будет заключаться в использовании канонических URL или серверных решений для обработки запросов.